[4차 산업혁명과 직업의 미래] 1. 인공지능과 머신러닝의 현재, 미래

이문규 munch@itdonga.com

[IT동아]

[편집자주] IT 커뮤니티인 '오컴(대표 편석준)'은 4차 산업혁명 시대를 맞아 직업 선택을 고민하는 대학생, 취업준비생, 사회초년생 등을 대상으로, 4차 산업혁명의 주요기술과 각 업계 현업자들의 조언을 전달하는 강연을 개최했다. 이 강연은 'Clip IT' 시리즈와 '마이 펀치라인' 시리즈로 나뉘어 총 18회 분량으로 진행되며, 이 연재에서는 연사별 강연 내용을 간추려 정리했다. 강연 개최 정보는 '온오프라인' 홈페이지에서 확인할 수 있다.

마이 펀치라인 1차 강연은 오는 4월 20일 저녁 7시 30분부터 서울 역삼동 '마루 180' 1층에서 진행되며, '카카오모빌리티'의 허경석 씨가 '카카오 사업팀의 업무 방식과 카카오 드라이버 업무 체험'에 관해 강연한다.

1. 인공지능과 머신러닝의 현재, 미래 (서울대학교병원 정보화실 고태훈 교수)

바야흐로 인공지능(AI, Artificial Intelligence)의 시대다. 인공지능이라 하니 왠지 전문적인 느낌이고, 아직까지는 그 활용 범위가 제한적이라 여기겠지만, 현재 TV 프로그램이나 광고, 뉴스 기사, 신문 등에서 흔하게 접할 수 있는 일반 용어가 됐다. 너도나도 인공지능을 말하니 이젠 피로감을 느끼는 이들도 있다.

하지만 인공지능은 앞으로 인류에 큰 변화를 안길 산업혁명(소위 말하는 4차 산업혁명)의 원동력이 될 것이라는 것이 관련 전문가들의 공통된 견해다. 이에 따라 인공지능이 무엇이고, 이를 어떻게 인식해야 할 지 생각하고 공부할 필요가 있다.

인공지능이라고 하면 흔히 SF소설이나 영화, 애니메이션을 떠올린다. 상반되는 두 인공지능 관련 영화를 비교해보자. 2001년 개봉한 스티븐 스필버그 감독의 에는 최초로 감정을 지닌 프로그래밍 로봇인 '데이빗'이 등장한다. 오랫동안 인간사회에 적응한 데이빗은 인간과 거의 흡사한 모습을 보이며 관객에게 눈물과 감동을 선사한다.

또 다른 영화 워쇼스키 감독의 <매트릭스>는 이와는 사뭇 다르다. 매트릭스 시리즈 중 <애니매트릭스>라는 애니메이션에는 매트릭스 세계관이 탄생한 배경이 나온다. 먼 미래에 인간과 로봇 간의 갈등으로 전쟁이 발발한다. 인간은 로봇 군단의 에너지 공급원인 태양을 차단하기 위해 엄청난 공해물질을 전세계에 퍼뜨린다. 그러나 결국 인류는 로봇과의 전쟁에서 패배하며 로봇의 에너지 공급원으로 전락한다. 그럼 영화 속 상상의 인공지능과 실제 인공지능은 얼마나 어떻게 다를까?

인공지능은 반드시 머신러닝으로 구현되는 것은 아니다. 가령 스팸메일을 걸러내는 인공지능은 아주 촘촘하게 구성된 규칙으로도 만들 수 있다. 인터넷 주소 링크와 특수문자가 5개 이상 동시에 들어가면 스펨메일로 규정한다든지, 특정 단어가 들어가는 메일을 스팸으로 처리하는 식이다. 이러한 규칙은 사람들이 그동안 축적한 지식을 토대로 구현된다.

한편 머신러닝은 직접 학습하여 스팸을 걸러내는 모델을 만들어낸다. 말 그대로 사람이 아닌 컴퓨터 프로그램이 학습하는 것이다. 인간의 지식은 소수 데이터만으로도 어느 정도 생성되지만, 머신러닝은 대량의 데이터(빅데이터)와 이를 연산하기 위한 컴퓨팅 자원이 필요하다는 제한이 있다.

그러나 현 시점에서 제한이라고도 보기 어려운 것이, 데이터의 중요성이 대두되면서 차츰 빅데이터가 생성됐고, 컴퓨팅 성능도 나날이 높아지고 있다. 또한 규칙 토대의 스팸메일 처리 시스템은 새 유형의 메일이 등장했을 때 기존 규칙 집합을 완전히 뒤엎을 수도 있지만, 일부 머신러닝 방법은 새 유형의 메일을 기존 모델에 적응시킬 수도 있다. 구글의 경우 머신러닝 방법 중 하나인 '인공신경망'을 이용하여 지메일에서 스팸을 걸러내고 있다.

전문가 지식에 의해 생성된 모델과 머신러닝 모델의
차이
전문가 지식에 의해 생성된 모델과 머신러닝 모델의 차이

<그림 1> 전문가 지식에 의해 생성된 모델과 머신러닝 모델의 차이: 머신러닝 모델은 기존 스팸 메일과 정상 메일을 직접 관찰하고 학습하여 스팸을 걸러내는 모델을 만들어낸다. 머신러닝 기반 모델은 전문가 지식을 알고리즘화하여 만든 모델보다 우위에 있다.

딥러닝(Deep Learning)은 머신러닝의 한 분야인 인공신경망이라는 방법이 더 발전된 형태며, 현재 머신러닝 분야의 주요 기술이다. 이미 잘 알려진 바둑 인공지능 '알파고'에 적극 활용된 기술 중 하나다. 딥러닝의 핵심은 어떤 현상을 표현한 데이터를 있는 그대로 학습하는 것이 가능하다는 점이다.

가령 그림의 경우 기존에는 선과 도형, 색깔 정보를 직접 분해하여 모델링을 수행했는데, 딥러닝 계열 중 '컨볼루션 신경망(Convolutional Neural Network)'은 별도 분해 과정 없이 그림 그 자체를 그대로 학습할 수 있다. 딥러닝은 특히 음성 인식, 물체 인식, 문장 생성 등 기존 방법의 성능을 한층 뛰어넘는 모습을 보였다. 스마트폰 카메라로 표지판을 촬영하면 즉시 언어 번역이 되는 것이나 사용자 음성을 인식하는 것 등에 이미 딥러닝 기술이 활용되고 있다.

'강화학습(Reinforcement Learning)' 또한 인공지능 발전에 빼놓을 수 없는 열쇠 중 하나다. 강화학습은 여러 차례 시도에 따른 성공과 실패를 거쳐, 자연스럽게 주어진 과업을 충실히 이행하는 모델을 만드는 방법다. 자전거를 처음 배울 때 여러 번 넘어지고 일어서는 과정을 반복하며 잘 타게 되는 것과 비슷한 이치다.

강화학습은 알파고가 자신과 스스로 대국을 진행하며 바둑 기력을 높이는 데에 이용됐고, 각종 게임을 자동으로 수행하는 모습도 보여줬으며(구글 딥마인드의 벽돌깨기 게임 정복하기: https://youtu.be/V1eYniJ0Rnk), 직립보행 로봇을 제작하는 데도 이용되다.

앞서 언급한 딥러닝과 강화학습은 인공지능 발전에 큰 공헌을 하고 있으며, 앞으로도 계속 연구되고 각종 사례에서 적용될 것이다. 그렇다면 인공지능은 우리 기대 대로 과연 완벽한 것인가? 애석하게도 그렇지 않은 사례가 적지 ㅇ낳다.

2015년에 구글 포토 서비스가 흑인 남녀 사진에 자동으로 '고릴라들'이라는 태그를 달아 논란이 됐다. 당시 당사자는 이를 트위터에 올렸고, 구글은 이를 인정하고 사과한 후 구글 포토에서 '고릴라', '침팬치' 등의 관련 단어가 태그 되지 않도록 수정했다.

2014년부터 꾸준히 발전하면서 기존 딥러닝 모델을 속이는 페이크 샘플을 생성하고 이를 방어하는 연구도 등장했다. 이를 바탕으로 최근에는 실제로는 토스터 그림이 그려져 있는데, 토스터로 인식할 만한 추상화 이미지를 넣으니 딥러닝 모델이 오답을 나타내는 '적대적 패치(Adversarial Patch)'가 등장하기도 했다.

적대적 패치의 예시
적대적 패치의 예시

<그림 2> 적대적 패치의 한 예시: 기존 VGG16 모델이 바나나로 정확히 인식하고 있는 상태에서 의도적으로 생성한 추상화 이미지 스티커를 넣으니 바나나를 인지하지 못하고 토스터로 인식하는 모습을 보였다(출처: Tom B. Brown 연구진의 ‘Adversarial patch’)

2016년에 등장한 마이크로소프트의 '테이(Tay)'라는 챗봇은, 트위터에서 자신에게 날리는 트윗과 멘션을 학습하여 점차 사람과 유사한 말을 하게 됐다. 그런데 트위터에서 여러 사용자들이 테이에게 부적절한 말과 표현을 지속적으로 기입하자, 테이가 인종차별 발언을 시작하거나 히틀러를 찬양하는 글을 올리기 시작했다. 결국 테이는 폐쇄됐다.

인공지능으로 음성인식 기술과 이미지 인식 기술이 엄청나게 발전하고, 알파고처럼 바둑을 정복한 성공 사례도 분명 존재하지만, 상당 수의 인공지능은 아직 인간의 입장에서 볼 때 불완전한 모습인 게 사실이다.

마이크로소프트 '테이'의 오류 사례
마이크로소프트 '테이'의 오류 사례

<그림 3> 마이크로소프트가 2016년에 발표한 인공지능 봇 '테이'. 윤리적으로 부적절한 트윗을 학습하여 좋지 않은 말을 실제로 트위터에 게시한 예제다.

인공지능은 과연 인간 전문가를 대체할 수 있을까? 2016년에 구글 딥마인드는 구글의 '인셉션 버전 3'라는 네트워크를 이용하여 안저검사 이미지를 판독하는 모델을 만들었으며, 이를 통해 건강한 환자와 당뇨성 망막변증 환자를 전문가 수준의 정확도로 분류함을 입증했다. 이제 그럼 안과 의사의 일자리가 없어지는 것일까?

그렇지 않다. 이 세상에 질환과 질환의 구조는 분명 달라질 수 있다. A라는 질환은 A-1과 A-2라는 질환으로 세분화될 것이고, B라는 새로운 질환이 발견될 수도 있다. 정상 환자와 A질환자를 딥러닝으로 완벽하게 분류한 모델은 바로 A-1, A-2, B질환자를 구분할 수 없다. 물론 데이터를 확보하여 다시 학습하면 된다.

그러나 데이터는 결국 의료진이 만든다. 실제로 구글 딥마인드는 엄청난 수의 안저검사에 수 십명의 의료진을 투입하여 정상인지 당뇨성 망막변증인지 구분했고, 이렇게 생성된 데이터를 학습하여 모델을 만들었다. 위에서 말한 새로운 A-1, A-2, B질환자를 구분하기 위해서는, 또 다시 의료진을 투입해 데이터를 생성해야 할 것이다.

인공지능은 변호사 직종도 대체할 것이라고 이야기하는데, 이는 매우 먼 이야기이거나 아예 불가능할 것이라고 생각한다. 현재 법률 관련 인공지능은 실제 법조항이 지문으로 주어지고 이 관련 명제가 등장했을 때, 이것이 참인지 거짓인지 정답을 달아놓은 데이터를 학습하여 만들어지고 있다.

그런데 법 역시 언제나 가만히 존재하지 않는다. 법은 고정된 게 아니라 사회 흐름의 변화 및 대다수의 이익을 추구함에 따라 지속적으로 변한다. 이처럼 급변하는 상황을 인공지능이 사람처럼 빠르게 인식하고 적응하기란 결코 쉽지 않다.

인공지능 기술은 아직 스스로 사고하여 문제를 해결할 수 있는 '강한 인공지능'의 영역까지는 아직 접근하지 못했으며, 지능적인 것처럼 보이는 행동만 할 뿐 스스로 사고하지는 못하는 '약한 인공지능' 영역에 머물러 있다. 강한 인공지능이 나아가 인간보다 훨씬 뛰어난 '초 인공지능'으로 나타나 인류를 위협할 거라 주장하는 학자나 전문가들도 있지만, 기술 발전 속도가 점차 느려져 스스로 사고하는 인공지능이 나타나지 않을 것이라는 주장도 나오고 있다.

지난 달 3월, 의료 분야 최대 학회 중 하나인 'HIMSS'에서, 전 구글 CEO이자 현 알파벳의 기술자문이 에릭 슈미츠가 키노트 연설을 맡았다. 그 역시 인공지능이 전문의료인을 대체할 수 없을 거라 주장했으며, 의료인들은 지속적으로 환자 관리 및 관련 연구에 집중하여 데이터를 생성하면, 인공지능이 이를 학습하여 보조하는 역할을 하게 될 것이라 언급했다.

결국 인공지능 시대에 가장 중요한 것은 '학습을 위한 데이터'가 될 것이며, 이를 생성하기 위한 인류의 역할과 중요성은 오히려 증대될 것이다. 인공지능은 인간을 이기는 지능이 되기보다, 인류의 '의사 결정 지원(Decision Support)' 시스템으로 자리 잡을 가능성이 더 높다.

정리 / IT동아 이문규 (munch@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.