[알파고: 진화의 시작] 인공지능의 필수조건, 머신러닝과 클라우드

강일용 zero@itdonga.com

[IT동아 강일용 기자] 1959년 마빈 민스키 MIT 교수가 '인공지능(artificial intelligence)'이라는 단어를 만들어 낸지 반세기가 흐른 지금. 구글 딥마인드 '알파고(AlphaGo)'를 비롯해 마침내 인공지능이라고 부를 수 있을 만한 것들이 속속 등장하고 있다.

기술의 발전이 인공지능을 탄생시켰다. 인공지능 탄생의 근간이 된 기술은 크게 두 가지다. 머신러닝(기계학습)과 클라우드 컴퓨팅 시스템이다. 여기에 인공신경망을 더해 인공지능을 만들어냈다. 인공신경망은 '인공지능과 프로그램의 차이' 기사에서 얘기했으니 잠깐 접어두자. 이번 기사에선 인공지능 탄생의 1등 공신 머신러닝과 클라우드 컴퓨팅 시스템에 대해 알아보겠다.

뇌는 클라우드, 교육은 머신러닝

인공지능은 지성을 얻은 컴퓨터로 정의할 수 있다.

사람은 어떻게 지성을 획득할까. 인간으로 태어나 교육을 받음으로써 지성을 얻는다. 인간은 이미 뇌와 신경망(뉴럴 네트워크)이라는 강력한 하드웨어 및 소프트웨어를 타고난다. 여기에 교육을 통해 인류의 역사 수십만 년 동안 축적된 지식(소프트웨어)을 넣는다. 이를 통해 고차원적인 행동을 할 수 있는 사고와 창의력을 얻는다.

인공지능 구현의 핵심이 여기에 있다. 뇌, 신경망, 교육을 컴퓨터에게 제공하면 컴퓨터 역시 지성을 얻을 수 있지 않을까. 뇌에 해당하는 것이 바로 클라우드 컴퓨팅 시스템이다. 신경망에 해당하는 것이 인공신경망이다. 교육에 해당하는 것은 머신러닝이다.

클라우드 속에 인공지능이 담겨있다

클라우드 컴퓨팅 시스템이란 수많은 CPU와 GPU를 병렬 연결해 거대한 컴퓨팅 자원으로 바꾸는 기술이다. 수 백대의 컴퓨터를 하나로 뭉쳐 1대의 슈퍼 컴퓨터를 만드는 기술이라고 이해하면 쉽다. 클라우드 컴퓨팅 시스템은 명백히 슈퍼컴퓨터의 발전형이다. 클라우드 컴퓨팅 시스템은 내부의 컴퓨팅(프로세스) 자원을 용도에 맞게 분배할 수 있다. 전체 컴퓨팅 파워의 30%는 홈페이지와 인터넷 서비스를 제공하는데 활용하고, 30%는 복잡한 연산과 연구를 하는데 이용하고, 남은 40%는 다른 사람한테 이용하라고 빌려주는 식이다. 비싼 돈내고 구축했지만, 특정 용도로 밖에 쓸 수 없는 슈퍼컴퓨터보다 훨씬 경제적이다. 때문에 CERN을 시작으로 수많은 IT 기업과 기관이 슈퍼컴퓨터 대신 클라우드 컴퓨팅 시스템을 구축하고 있다. (슈퍼컴퓨터 순위에 관한 기사가 뚝 끊긴 이유이기도 하다)

클라우드 컴퓨팅 시스템의 선두주자는 어디일까. 시장 영향력은 아마존의 AWS, 마이크로소프트의 애저, IBM의 소프트레이어가 더 크지만, 순수 규모로만 따지면 구글이 1등이다. 구글 검색, 유튜브, 지메일, 구글앱스 등 다양한 인터넷 서비스를 제공하기 위해 세계 최대 규모의 데이터센터를 세우고 클라우드 컴퓨팅 시스템을 구축했다. 단지 자체 서비스를 제공하기 바빠서 클라우드 컴퓨팅 임대에 뒤쳐진 것 뿐이다.

알파고를 비롯한 딥마인드의 모든 인공지능은 이러한 구글 클라우드 컴퓨팅 시스템 속에 있다. 미국 중서부에 위치한 구글의 핵심 데이터센터에서 컴퓨팅 자원을 임대받아 인공지능을 구현했다. 지난 10월 알파고는 판후이 2단과 대결하기 위해 1,202개의 CPU와 176개의 GPU를 융합한 컴퓨팅 파워를 동원했다. 제온, 제온파이, 테슬라 등 동원된 CPU와 GPU의 면면을 감안하면 시중의 슈퍼컴퓨터 못지 않다. 10만 개에 이르는 경우의 수를 순식간에 연산해낼 수 있는 비결이다. 이번 이세돌 9단과의 대국에 동원된 컴퓨팅 파워는 아직 공개되지 않았다. 하지만 판후이 2단과 대결했을 때보다 늘어나면 늘어났지 결코 줄지는 않았을 것이다.

막대한 컴퓨팅 파워를 활용한 연산능력은 인공지능이 이미 사람을 뛰어넘은 부분이다. 사람은 계산 능력을 향상시키기 위해 길고 복잡한 교육이 필요하지만, 인공지능은 클라우드 컴퓨팅 시스템에서 컴퓨팅 자원만 추가하면 계산 능력이 급격히 향상된다. 게다가 나이를 먹으면 뇌의 능력이 떨어지는 사람과 달리 인공지능은 계산 능력이 퇴보하지도 않고 고장나는 일도 적다.

수많은 데이터를 보관하는
데이터센터
수많은 데이터를 보관하는 데이터센터
<클라우드 컴퓨팅 시스템을 구축한 데이터센터의 전경>

머신러닝으로 데이터를 학습

머신러닝이란 이름 그대로 컴퓨터에게 학습할 수 있는 능력을 주는 기술이다. 사람은 학습을 통해 스스로를 더욱 발전시킬 수 있다. 머신러닝도 마찬가지다. 컴퓨터에게 데이터(학습)를 제공해 성능을 더욱 향상시키는 것이다.

과거 컴퓨터의 성능을 향상시키려면 사람이 일일이 프로그램을 개발하고 이를 추가해야 했다. 반면 머신러닝을 활용하면 컴퓨터가 수집된 데이터를 바탕으로 스스로의 성능을 개선한다.

알파고는 이러한 머신러닝의 총아다. 3,000만 가지 이상의 수를 입력받은 후 100만 번 이상의 자가 대국과 외부 대국을 진행해 스스로의 성능을 개선했다. 4~5단 수준에 불과했던 기력을 5개월 만에 9단 수준으로 끌어올렸다. 구글검색, 구글포토, 지메일, 자율주행자동차 등 다른 구글의 서비스에도 머신러닝이 적용되어 있다.

머신러닝을 활용하면 과거 컴퓨터와 인공지능에게 불가능했다고 여겨졌던 것이 가능해진다. 대표적인 것이 사진 구분이다. 과거에는 PC나 인터넷에서 '개'와 관련된 이미지를 찾으려면 파일에 개와 관련된 태그가 붙어있어야만 했다. 하지만 이제 머신러닝을 통해 이미지를 직접 분석하고 그 속에서 개를 찾을 수 있게 됐다. 사용자가 일일이 태그나 제목을 붙이지 않아도 된다.

머신러닝에서 가장 중요한 것은 데이터다. 데이터가 축적되면 축적될 수록 더 정확하고 개선된 결과를 도출해낼 수 있다. 1~2건의 데이터가 추가되었다고 해서 당장 극적인 성능 개선이 이루어지지는 않는다. 수백~수천 건의 데이터가 축적되어야 성능을 개선할 수 있다. 알파고도 마찬가지다. 이세돌 9단과 1번 겨루었다고 해서 '깨달음'을 얻어서 성능이 강화되지는 않는다. 수많은 기보를 입력하고 입력해야 더 나은 결과를 얻을 수 있다.

머신러닝의 데이터 학습 방식은 크게 '감독학습'과 '비감독학습'으로 나눌 수 있다. 감독학습은 개발자의 감독하에 데이터를 습득하는 기법이다. 특정 데이터와 결과의 옳고 그름 또는 중요도를 개발자가 인공지능이나 컴퓨터에게 알려주는 것이다. 인공지능은 이러한 감독학습을 통해 자신의 실수를 개선하거나, 더 비중있게 다뤄야하는 데이터가 무엇인지 파악할 수 있다.

비감독학습은 개발자의 감독 없이 스스로 데이터를 습득하고 성능을 개선하는 것이다. 개발자의 감독이 필요없기 때문에 고도의 기술이 필요하다. 머신러닝이 고도화되면 고도화될 수록 감독학습으로 습득하는 데이터보다 비감독학습으로 습득하는 데이터의 비중이 더 늘어난다.

알파고가 제공받은 3,000만 가지 이상의 수는 감독학습, 100만 번 이상의 자가 대국 및 외부 대국은 비감독학습에 비유할 수 있다.

이미지 검색에도 그대로 대입 가능하다. 처음 인공지능에 이미지 속 개를 찾는 방법을 알려준 후 감독학습을 통해 결과를 평가한다. 충분한 감독학습을 진행한 후 이미지 검색 능력이 믿을 만하다고 판단되면 개가 섞여있는 이미지를 직접 찾게한다. 감독학습과 비감독학습을 통해 데이터가 모이면 모일 수록 정확도가 더욱 향상된다.

제프 딘 구글 머신러닝
총괄
제프 딘 구글 머신러닝 총괄
<제프 딘 구글 머신러닝 총괄>

제프 딘 구글 머신러닝 총괄은 "알파고와 구글 검색, 구글포토, 지메일 등 구글의 서비스에 머신러닝을 적용하기 위해 구글 클라우드 컴퓨팅 시스템을 활용하고 있다"고 밝혔다. 다만 구글의 전체 클라우드 컴퓨팅 자원에서 인공지능과 머신러닝을 구현하기 위해 어느 정도의 자원을 할당하고 있는지는 기업의 비밀이라 공개할 수 없다고 말했다.

인공지능을 구현하려면 인공신경망을 연구하기 앞서 클라우드 컴퓨팅 시스템과 머신러닝에 대한 구축과 연구가 선행되어야 한다. 둘의 대한 이해 없이 인공지능 연구를 진행한다는 것은 사상누각에 불과하다.

구글, 마이크로소프트, IBM, 페이스북 등 글로벌 IT 기업이 인공지능에 대한 연구를 할 수 있는 것은 이들이 이미 클라우드 컴퓨팅 시스템과 머신러닝의 글로벌 선두주자이기 때문이다. 그들이 인공지능 연구를 하는 것이 아니라 그들만이 인공지능 연구를 할 수 있는 것이다. 진정 국내 인공지능 산업 발전을 원한다면 정부와 기업은 먼저 클라우드 컴퓨팅과 머신러닝을 이해하고, 이에 대한 연구와 투자를 해야만 한다.

글 / IT동아 강일용(zero@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.