[알파고: 진화의 시작] 알파고는 '누구'인가?
[IT동아 강일용 기자] 지난 3월 9일 인공지능 역사에 한 획을 그을만한 일이 벌어졌다. 구글의 바둑 인공지능(Artificial Intelligence, AI) 알파고(AlphaGo)가 이세돌 9단과의 바둑 대결에서 1승을 거두며 앞서나간 것이다. 체스, 퀴즈쇼에 이어 기계가 넘볼 수 없는 난공불락으로 여겨졌던 바둑마저 이제 더이상 성역이 아님이 증명되었다.
전세계가 알파고를 주목했다. 가디언, 르몽드, CNN 등 유수의 언론부터 더버지, 씨넷 등 IT전문지까지 모든 외신이 알파고가 1승을 거둔 것을 전면에 내세웠다. 국내의 모든 언론도 이세돌의 패배를 알리고 알파고가 승리한 이유를 분석하기 시작했다.
이렇게 주목받고 있는 알파고는 대체 어떤 존재일까. 알파고를 개발한 '딥마인드(Deepmind)'와 이를 인수한 구글 그리고 알파고에 대해 자세히 알아보자.
인공지능 스타트업 '딥마인드'
딥마인드는 인공지능 연구자 '데미스 하사비스(Demis Hassabis)'가 지난 2010년 설립한 영국의 인공지능 개발사다. 데미스 하사비스는 원래 불프로그 스튜디오, 라이언헤드, 엘릭서 스튜디오 등 여러 영국 게임 개발사에서 인공지능 프로그래밍을 담당하던 인물이다. 그런 그가 게임에서만 이용되는 제한적인 인공지능이 아닌 모든 분야에 이용되는 인공지능을 개발하기 위해 세운 머신러닝 연구 기업이 딥마인드다.
2010년에 들어 구글은 한 가지 고민에 빠졌다. 인터넷 광고에 치우친 기업 구조를 개선하고, 새로운 미래 성장동력을 찾아야 했다. 구글의 최고 경영자 래리 페이지는 원래 연구자 기질이 강한 학자 출신의 인물이다. 당장 돈이 되지 않더라도 10년 이후를 내다볼 수 있는 사업을 원했다. 그래서 선택된 차세대 먹거리가 인공지능, 로봇, 자율주행 자동차, 헬스케어 등 4가지다.
일반적으로 국내 기업은 차세대 성장동력을 정하더라도 이를 내부에서 개발하려 하지 외부에서 수혈하려 하지 않는다. 구글은 전혀 다른 선택을 했다. 구글 스스로가 인공지능, 로봇, 헬스케어의 전문가가 아닌 만큼 (자율주행 자동차는 전문가다) 다른 전문가를 인수해 해당 사업에 뛰어든다는 결정을 내렸다. 그래서 2013년 4족 보행 로봇을 실제로 개발한 보스턴 다이나믹스를 인수한데 이어 2014년 딥마인드를 인수해 인공지능 개발에 뛰어들었다.
구글이 지주회사 알파벳을 세우고 연구분야에 맞춰 별도의 독립법인을 세우면서 딥마인드는 '구글 딥마인드'라는 이름의 별도의 회사가 되었고, 데미스 하사비스는 구글 선다 피차이 최고경영자와 대등한 구글 딥마인드의 최고경영자가 되었다.
DQN에 이어 알파고
딥마인드와 데미스 하사비스는 인공지능이 사람처럼 창의적인 작업을 할 수 있어야 한다고 여겼다. 사람만이 할 수 있는 창의적인 작업은 어떤 것이 있을까? 딥마인드와 데미스 하사비스는 '게임'에 주목했다. 비디오 게임, 바둑 등 창의적인 플레이를 요구하는 게임이야 말로 기계가 넘보지 못하는 사람의 분야였다. 때문에 게임을 플레이할 수 있는 인공지능 개발에 나섰다. 그 성과가 DQN(deep Q-network)과 알파고다.
지난 2015년 2월 공개된 DQN은 고전 비디오 게임인 '아타리2600' 속의 46가지 게임을 사람처럼 플레이할 수 있는 인공지능이다. 아타리2600이 세상에 등장한지 반 세기가 되어가지만, 장애물을 피해서 목적을 달성한다는 비디오 게임의 본질은 전혀 변하지 않았다. 넘어야할 장애물의 난이도가 낮은 것이 살짝 흠이지만, 어찌되었든 비디오 게임을 즐길 수 있는 인공지능이 세상에 등장했다.
이어 2015년 10월 유럽의 프로바둑 기사 판후이 2단과의 대결에서 알파고가 세상에 모습을 드러냈다. 알파고는 이름에 그 목적이 반영되어 있다. 구글의 지주회사 '알파벳'에 바둑을 의미하는 영어단어 '고(Go)'를 더해 만들어낸 이름이다. 구글의 바둑 인공지능임을 의미한다. 알파고는 판후이 2단과의 대결에서 5:0으로 전승하면서 파란을 일으켰다. 이어 다음 대국상대로 왕년의 세계 1위 바둑기사 이세돌 9단을 지목했다.
왜 하필 게임인가?
딥마인드는 왜 수많은 작업 중에서 게임을 인공지능이 도전해야 할 분야로 본 것일까. 여기에는 두 가지 이유가 있다. 첫 번째 이유는 설립자이자 개발자인 데미스 하사비스가 한 때 인공지능 프로그래머로서 게임 분야에 종사했던 것 때문이고, 두 번째 이유는 사람의 창의성이 가장 잘 드러나는 분야이기 때문이다.
하사비스는 원래 게임 개발자였다. 인공지능 프로그래머로서 테마파크, 블랙&화이트, 리퍼블릭:레볼루션, 이블지니어스 등 수많은 게임을 개발했다. 게임 업계에서 가장 권위있는 상인 골든조이스틱어워드를 수상한 테마파크, 게임 내 NPC의 행동과 변화가 마치 실제 사람 같아서 신이 된 것 같은 기분을 느낄 수 있다는 평가를 받은 블랙&화이트 등을 개발하면서 인공지능에 대한 열망을 키웠다. 한 때 게임을 개발하면서 게임이야 말로 가장 창의적인 작업이라는 것을 깨달은 하사비스는 인공지능이 사람과 대등해지려면 먼저 게임부터 정복해야 한다는 사실을 깨달았다.
게임은 매우 창의적인 작업이다. 수 많은 경우의 수 속에서 사람 개개인만의 최적의 수가 있다. 같은 게임을 즐겨도 즐기는 방식이 사람 별로 천차만별이다. 하사비스는 '인공지능의 창의력을 입증하기 위해 게임을 즐기는 모습을 보여주어야만 한다'고 판단한 것이다.
무서운 기력향상, 비결은 머신러닝
알파고와 판후이 2단과의 대결을 복기하면서 많은 바둑 전문가들이 알파고의 기력이 세계 최정상급 기사에는 미치지 못한다고 판단했다. 이세돌 9단 역시 알파고의 실력이 4~5단 수준이며, 대국에서 5:0 또는 4:1로 이길 것으로 전망했다. 하지만 9일 대국에서 알파고는 시종일관 이세돌 9단과 팽팽한 접전을 벌였고, 결국 승리했다. 이제 알파고의 실력이 프로 9단 기사와 대등하다는 것을 부정하는 사람은 없을 것이다.
불과 5개월 만에 일어난 변화다. 그 동안 알파고에겐 대체 무슨 일이 있었던 것일까. 알파고는 인공지능의 필수요소인 머신러닝(기계학습)을 이용해 스스로의 기력을 향상시켰다. 딥마인드는 알파고의 인공신경망 속에 3,000만 가지 이상의 수를 입력했다(감독학습). 그 다음 한 달 동안 100만 번 이상의 자가 대국과 외부 대국을 진행해 최적의 수를 찾아나갔다(비감독학습). 다른 바둑 프로그램과의 대결도 진행했다. 500회의 대국을 펼쳐 499번 이겼다. 처음에는 팽팽하던 접전이 나중에는 알파고의 우세로 흘러갔다. 결국 잘해봐야 5~6단 수준인 바둑 프로그램은 알파고의 상대가 되지 못해 몇 수를 접어주고 경기를 펼쳐야만 했다.
한 선수가 1년에 1,000번 바둑을 둔다고 가정하면, 천 년동안 바둑만 둔 셈이다. 재능이 없는 사람도 바둑만 천 년동안 두면 바둑의 신이 될 것이다. 알파고도 마찬가지다. 알파고에게는 인간과 같은 직관과 놀라운 창의성이 없다. 하지만 인간은 흉내낼 수 없는 기계 특유의 끈기와 노력이 있었다. 인간이 흉내내지 못할 지치지 않는 끈기로 불과 5개월 만에 기력을 5단에서 9단으로 끌어올리는데 성공했다.
불필요한 것은 잊어 버렸다, 사람처럼
19x19의 넓은 판에서 벌어지는 바둑의 경우의 수는 우주의 원자보다도 많다. 그렇다고 사람이 그 많은 경우의 수를 모두 파악하는 것은 아니다. 사람에게는 직관이 있다. 대국 또는 게임 플레이에 영향을 미치는 수만 직관적으로 추려낸후 검토해서 최적의 수를 찾는다.
인공지능도 마찬가지다. 바둑 속의 모든 수를 일일이 연산할 수는 없다. 지구상 모든 컴퓨터의 프로세싱 파워를 긁어모아도 불가능한 작업이다. 때문에 사람처럼 게임에 영향을 미치는 수만 연산하도록 했다. 비결은 컴퓨터 과학기술 '트리서치(Tree search)'다. 알파고는 트리서치를 활용해 우주의 원자보다도 많은 경우의 수를 10만 개 수준으로 줄이는데 성공했다. 사람이라면 10만 개라는 경우의 수를 파악하지 못한다. 하지만 인공지능에겐 그리 많은 수가 아니다. 1,202개의 cpu와 176개의 gpu를 갖춘 알파고는 이 10만 개의 경우의 수 속에서 최적의 수를 찾아 대국을 진행했다.
알파고의 인공신경망은 '정책망(policy network)'과 '가치망(value network)'으로 구성되어 있다. 사람과 유사한 사고 방식으로 바둑에 접근하기 위해 두 가지 인공신경망을 이용했다. 정책망은 바둑의 전체 대국 상황을 지켜본다. 현재 판이 어떻게 흘러가고 있는지, 흑과 백돌 중에 누가 유리한지, 공격적으로 나가야하는지 방어적으로 나가야하는지 등을 파악하고 결정한다. 가치망은 한 수 한 수를 두고, 이를 평가한다. 내 한 수와 상대방의 한 수를 통해 나와 상대방이 어떤 이익과 불이익을 얻었는지 파악한다. 두 인공신경망에서 나온 데이터를 활용해 대국을 진행하고, 승리와 패배 여부를 판단한다.
만약 이세돌 9단과의 추후 대결에서 판이 불리해지면 알파고는 주저없이 돌을 던질 것이다. 이미 진 경기를 오래 끌고 갈 이유가 없기 때문이다. 이것이 정책망의 능력이다. 알파고는 대국에서 가끔씩 뜬금없어 보이는 곳에 돌을 둘 것이다. 하지만 이는 승리에 한 발짝 더 다가가기 위한 신의 한수다. 이것이 가치망의 능력이다.
다음 도전 분야는 기후예측과 의료
알파고는 이번 1승으로 이미 그 가치를 입증했다. 향후 경기 결과와 관계 없이 알파고에 대한 투자와 관심이 점점 더 늘어날 것이다. 기력을 통해 스스로가 사람과 대등한 존재임을 입증한 알파고를 '무엇(what)'이라고 부르는 것은 실례다. 앞으로 '누구(who)'라고 불러 마땅하다.
알파고를 개발한 딥마인드의 다음 목표는 뭘까. 딥마인드는 현재 알파고와 DQN에 적용된 인공신경망 기술을 활용한 차세대 인공지능 '딥마인드 헬스'를 준비하고 있다. 딥마인드 헬스는 기계에서 수집된 의료 데이터를 바탕으로 의사를 대신해 사람 몸 속의 병을 찾아주는 인공지능이다. 이미 앱을 통해 개인의 헬스데이터를 제공받고 이를 분석해 추후 건강상황이 어떻게 변화할지 예측해주는 '스트림'이라는 서비스도 제공하고 있다.
또한 기후예측에 대한 도전도 준비 중이다. 전세계의 기상 변화 데이터를 수집한 후 지구의 환경이 향후 어떻게 변할지 예측해주는 인공지능을 개발하겠다는 것이다. 알파고를 개발하면서 얻은 노하우가 두 인공지능 개발에 고스란히 적용된다.
알파고와 DQN 역시 도전을 계속한다. 바둑과 간단한 비디오 게임을 하면서 얻은 노하우를 융합해 좀 더 복잡한 비디오 게임에 도전한다. 바로 대한민국의 국민게임 '스타크래프트'다. 제프 딘 구글 머신러닝 총괄은 "데미스 하사비스 대표는 알파고와 DQN이 도전할 다음 분야로 스타크래프트를 고려하고 있다"고 깜짝 선언했다. 머지않아 딥마인드가 개발한 인공지능(알파고는 바둑 전용 인공지능인 만큼 다른 이름일 것이다)과 국내 정상급 프로게이머가 상금을 걸고 스타크래프트 경기를 펼치는 모습을 볼 수 있을지도 모른다.
글 / IT동아 강일용(zero@itdonga.com)