기계학습이 우리 삶을 어떻게 바꿀까?

강일용 zero@itdonga.com

[도쿄=IT동아 강일용 기자] 기술의 발전은 불가능하다고 생각했던 것을 가능하게 만든다. 불과 100년 전만 해도 사람이 달에 가는 것은 헛된 공상에 불과했다. 50년도 채 지나지 않아 사람은 달에 발을 디딛는데 성공했다. 10년 전만 해도 누구나 들고 다닐 수 있는 휴대용 컴퓨터가 출현할 것이라고 말하면 헛소리하지 말라고 반박당하기 일쑤였다. 지금은? 대한민국 국민 대부분이 손에 휴대용 컴퓨터를 들고 다닌다.

비생산적인 단순 작업도 마찬가지다. 사진을 자동으로 분류하거나, 별 다른 내용이 없는 이메일에 자동으로 답장을 보내주는 것. 과거에는 꿈같은 얘기로 여겨졌다. 그러나 이제 현실이 됐다. 바로 '기계학습(머신러닝, Machine Learning)' 덕분이다.

구글은 10일 도쿄 미나토구 록본기힐스 모리타워에서 '매직 인 더 머신(Magic in the Machine)' 행사를 개최하고 기계학습의 현황, 구글 서비스에 기계학습이 얼마나 적용되어 있는지, 기계학습의 미래 등에 대해 자세히 설명했다. 기계학습 분야를 선도하고 있는 구글이 꿈꾸는 기계학습의 비전과 기계학습 엔진 ‘텐서플로(Tensor Flow)’를 오픈소스로 공개한 이유에 대해 자세히 알아보자.

그렉 코라도 구글 선임
연구원
그렉 코라도 구글 선임 연구원
<구글 그렉 코라도 기계학습 선임 연구원>

기계학습이란?

기계학습이란 이름 그대로 기계에게 학습할 수 있는 능력을 주는 기술이다. 사람은 학습을 통해 스스로를 더욱 발전시킬 수 있다. 기계학습도 마찬가지다. 기계에게 데이터(학습)를 제공해 성능을 더욱 향상시키는 것이다. 기계의 성능이 향상되는 만큼 기계가 제공하는 서비스의 품질도 함께 향상된다. 기계에게 지능을 주는 기술인 ‘인공지능’과 유사한 점이 많다.

과거에는 기계의 성능을 향상시키려면 사람이 일일이 소프트웨어를 개발하고 이를 추가해야 했다. 반면 기계학습을 활용하면 기계가 데이터를 수집하고 스스로의 성능을 더욱 개선할 수 있다.

예를 들어보자. 기존에는 스팸 메일을 걸러내기 위해 개발자가 스팸메일 감지 알고리즘을 개발한 후 이를 적용해야 했다. 하지만 점점 다양한 형태로 진화하는 스팸 메일을 모두 감지하고 차단하자니 역부족이었다. 이제 다르다. 기계학습을 통해 기계가 스팸 메일이 무엇인지 배우고, 어떤 형태로 스팸 메일이 진화할지 예측한다. 이를 바탕으로 점점 더 빠르고 정확하게 스팸 메일을 차단할 수 있다.

기계학습은 생각보다 우리 삶에 많이 다가온 상태다. 구글 검색, 구글 나우, 구글맵, 지메일 등 대부분의 구글 서비스에 기계학습이 적용됐다. 물론 사용자들은 이러한 사실을 알 필요가 없다. 기계학습 적용에 따른 서비스 품질 향상의 혜택을 받으면 그만이다.

기계학습보다 더욱 고도화된 ‘심층학습(딥러닝, Deep Learning)’이란 개념도 존재한다. 심층학습은 기계학습의 또다른 형태다. 인공지능을 활용한 기계학습이라고 이해하면 쉽다.

기계학습의 핵심? 데이터, 데이터, 더 많은 데이터

기계학습의 핵심은 데이터다. 수많은 데이터를 수집한 후 평균값을 산출함으로써 기계가 보다 정확한 판단을 할 수 있게 해주는 것이다.

쉽게 설명해보자. 공부를 많이할 수록 성적이 잘 나온다. 이것이 보편적인 상식이다. 이러한 데이터를 기계에 제공하면 기계는 오래 공부하면 공부할 수록 성적이 향상된다는 결과를 출력해줄 것이다.

하지만 현실은 그리 녹록지 않다. 쉬험이 쉬우면 공부를 적게 해도 성적이 잘 나온다. 쉬험이 여려우면 공부를 많이 해도 성적이 잘 나오지 않는다. 기계가 틀린걸까? 아니다. 전형적인 데이터 부족이다. ‘시험의 난이도’라는 데이터를 기계에게 제공하지 않은 것이다.

기계의 정확도를 높히기 위해 이처럼 다양한 변수(데이터)를 수집해야 한다. 데이터를 수집하고, 수집하고, 더 많이 수집해서 평균값을 만들어야 한다. 지속적인 관찰과 데이터 수집을 통해 특정 행위의 평균값을 완성하고, 이를 기계가 결과값을 출력할 때 사용할 수 있게하면 보다 정확한 예측이 가능하다.

매직 인 더 머신
매직 인 더 머신

기계학습, 이미 모든 구글 서비스에 적용

기계학습은 구글의 서비스에 어떤 형태로 도입됐을까? 지난 2008년 텍스트를 음성으로 변환해주는 구글 스피치 서비스에 최초로 도입됐다. 2013년부터는 전사적으로 기계학습을 활용하기 시작했다. 지금은 모든 구글 서비스에 기계학습이 적용된 상태다.

구글 검색에 기계 학습이 어떻게 적용됐을까? 과거에는 구글 이미지 검색에 ‘고양이’라고 검색하면 사진 이름 또는 본문에 고양이라는 단어가 있는 경우에만 찾을 수 있었다. 이제는 다르다. 기계학습을 통해 이미지를 분석한 후 고양이로 판단되는 이미지가 섞여 있으면 해당 이미지도 검색 결과로 함께 보여준다.

또한 지메일의 스팸 메일 걸러내기, 음성을 문자로 변환, 구글 번역 등 사용자가 흔히 접할 수 있는 서비스에도 기계 학습이 적용된 상태다. 또한 기계학습의 발전 덕분에 카메라로 찍은 사진 속 글자를 바로 번역해주는 서비스도 가능해졌다.

기계학습 얘기를 하면서 구글포토의 얘기를 빼놓을 수 없다. 구글포토는 기계학습을 활용해 사진을 분석한 후 사진을 종류별로 자동 정리해준다. 사용자는 단지 사진을 업로드하기만 하면 된다.

구글 무인자동차는 기계학습 기술의 총아다. 신호 감지, 도로 감지, 센서 제어, 주행 제어 등 무인자동차를 구성하는 모든 분야에 기계학습이 적용됐다. 특히 구글은 무인자동차를 현실화하기 위해 '도로 위 신호가 폭설, 폭우 같은 악천후 때문에 50% 밖에 파악되지 않더라도 남은 50%를 분석해 신호를 정상 인식할 수 있는 기술'을 기계학습을 활용해 개발했다.

현재 구글은 기계학습을 활용해 '스마트 답장'이라는 야심찬 프로젝트를 진행하고 있다. 이제 이메일의 답장도 기계가 알아서 보내준다는 것이다. 원리는 매우 간단하다. 사용자가 평소 간단한 답변만 보내는 이메일이 있는지 파악한다. 추후 해당 이메일이 다시 오면 사용자가 보낸 간단한 답변을 그대로 회신하는 것이다. 2009년 구글이 만우절을 기념해 자동으로 답장을 보내는 기능을 개발했다는 거짓말을 한지 6년이 지난 지금, 마침내 자동으로 답장을 보내는 기능이 실제로 등장했다. 이 서비스는 구글 인박스에 지난 주부터 적용된 상태다.

구글의 새로운 야심, 오픈소스 기계학습 '텐서플로'

마이크로소프트, 페이스북 등 경쟁사를 제치고 기계학습을 선도하기 위해 구글은 9일(현지시각) 오픈소스 기계학습 엔진 '텐서플로'를 공개했다. 텐서플로는 구글 내부에서 사용되는 기계학습 기술을 타사와 대학 등 연구기관이 사용할 수 있게 한 것이다.

텐서플로
텐서플로

텐서플로는 안드로이드보다도 더 범용적인 오픈소스다. 아파치 2.0 라이선스를 채택해 누구나 자유롭게 상업적으로 이용할 수 있고, 소스코드를 수정하더라도 이를 공개할 의무가 없다(안드로이드는 누구나 자유롭게 상업적으로 이용할 수 있지만, 소스코드를 수정할 경우 이를 공개해야 한다).

얼핏 구글로서는 남는 게 없는 장사인 것으로 보인다. 사실은 그렇지 않다. 텐서플로는 구글의 기계학습 기술을 업계 표준으로 굳히기 위한 구글 전략의 첨병이다.

기계학습은 쉬운 분야가 아니다. 세계에서 가장 많이 데이터를 수집하는 구글조차도 혼자서는 갈 길이 멀다고 느끼는 분야다. 때문에 기계학습 분야에 많은 인력과 자본을 끌어들이기 위해 텐서플로를 오픈소스로 공개한 것이다. 함께 기계학습을 연구함으로써 시장의 규모를 키우고, 텐서플로의 보급을 확대해 텐서플로가 안드로이드 운영체제처럼 업계 표준으로 우뚝서길 기대하고 있는 것이다.

물론 텐서플로는 아직 걸음마 단계다. 일반 PC에서 활용할 수 있는 기술만 공개했고, 구글 내부에서 활용되는 병렬 컴퓨팅을 활용한 대규모 데이터 처리 관련 기술은 공개하지 않았다. 앞에서 설명했듯이 기계학습은 데이터 수집 및 처리가 가장 중요하다. 대규모 데이터처리야 말로 구글의 진정한 밑천이다.

구글에서 기계학습과 텐서플로를 연구하는 그렉 코라도(Greg Corrado) 선임 연구원은 "기계학습 자체는 30년 가까이된 오래된 개념이다 하지만 당시에는 컴퓨터의 성능이 부족해 꿈같은 얘기로 여겨졌다. 하지만 컴퓨터의 성능이 발전함에 따라 기계학습의 진가가 드러나고 있다"며, "뇌신경학과 컴퓨터 공학을 접목함으로써 기계학습이 더욱 고도화될 것"이라고 밝혔다.

글 / IT동아 강일용(zero@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.