구글 인공지능이 이미지를 보고 설명을 붙이는 세상
[IT동아 강일용 기자] 인공지능 구현을 위한 구글의 연구가 오늘 한 단계 더 진일보했다. 구글 뇌과학 연구팀은 22일(현지시각) 텐서플로를 활용한 이미지 캡션 기능을 깃허브에 오픈소스로 공개한다고 발표했다.
이제 인공지능이 특정 이미지를 분석해서 해당 이미지에 맞는 설명을 자동으로 붙여줄 수 있게 되었다는 얘기다. 다음 이미지를 보자.
<구글의 인공지능이 붙인 주석. 이미지를 분석해서 정확한 상황을 글로 표현하고 있다>
해당 이미지에는 '한 사람이 해변에서 연을 날리고 있다'는 주석이 붙어있다. 이 주석은 사람이 적은 것이 아니다. 구글의 인공지능이 해당 사진을 분석한 후 자동으로 주석을 붙인 것이다.
구글은 이외에도 다양한 이미지 분석 예제를 함께 공개했다. 해당 예제에 따르면 구글의 인공지능은 사물의 종류, 위치, 색상뿐만 아니라 행동까지 모두 감지할 수 있는 것으로 보인다. 조금 시적인 표현을 제외하면, 사람이 주석을 붙이는 것과 다를 바 없다. 심지어 유사한 사물도 정확히 구별할 수 있다. 예를 들어 사람도 종종 헷갈리는 시베리안 허스키와 알래스카 말라뮤트도 정확히 구별해낸다.
<구글의 이미지 분석 인공지능은
시베리안 허스키와 알래스카 말라뮤트를 정확히 구별한다>
사진 기자들은 사진을 찍은 후 간단한 주석을 붙여서 출고하고 있다. 하지만 수 많은 이미지를 전송하다보면 주석을 붙이는 일이 귀찮게 다가오는 경우가 많다. 이제 귀찮아 하지 않아도 된다. 인공지능이 대신 이미지에 주석을 붙여줄 날이 바로 코 앞에 다가왔기 때문이다. 일반 사용자도 이 기능이 상용화되면 보다 쉽게 이미지를 인식하고 정리할 수 있게 된다. 주석에 달린 단어를 통해 사진에 자동으로 태그가 달리고, 이 태그를 바탕으로 이미지가 정돈되기 때문이다. 시각 장애인들도 보다 편리하게 웹 서핑을 즐길 수 있게 될 것이다. (현재 일정 방문자 이상을 갖춘 홈페이지는 시각 장애인의 웹 서핑 권리를 보장하기 위해 모든 이미지에 글자로 주석을 달아야 하지만, 번거로움 때문에 이를 제대로 지키지 않는 경우가 많다)
구글의 인공지능은 어떤 원리로 이미지를 '사람처럼' 분석할 수 있는 것일까? 여기에는 고도의 클라우드 컴퓨팅, 머신러닝, 딥러닝 기술이 이용됐다. 가장 먼저 한 작업은 클라우드 컴퓨팅 속 CPU 묶음과 머신러닝을 활용해 인공지능을 교육한 것이다. 먼저 사람이 직접 주석을 단 이미지를 입력해 인공지능에게 바른 방향을 제시했다. 그 다음 수 많은 이미지를 인공지능에 입력해 인공지능이 주석을 달도록 했다. 이렇게 나온 이미지 주석을 사람이 평가해서 무엇이 맞고 무엇이 틀린지 인공지능에게 알려줬다.
그 다음 단계는 자습이다. 사람이 입력한 데이터를 바탕으로 인공지능 스스로 이미지를 분석하고 주석을 달은 후 스스로 평가하기 시작했다. 이 과정을 수 없이 반복해서 이미지 분석 기능을 스스로 향상시켰다.
<인공지능을 교육시키는 과정.
사람이 제공한 주석을 바탕으로 자습을 진행해 더 나은 결과물을 도출해낸다>
여기에 클라우드 컴퓨팅 속 GPU 묶음과 딥러닝을 활용한 이미지 인식 기능을 추가했다. 사람은 이미지를 보고 단숨에 그것이 무엇인지 알 수 있지만, 인공지능에게 이미지란 단지 특정 색상으로 이뤄진 점(픽셀)의 모임일 뿐이다. 이를 수 많은 신경망 계층을 거쳐 사람처럼 인식할 수 있도록 만드는 기술이 딥러닝이다.
이렇게 이미지를 인식하고 분석할 수 있게 구글은 내부에서 만든 인공지능이 바로 '인셉션' 이미지 엔진이다. 사진을 인식해서 자동으로 정렬해주는 구글의 서비스 '구글 포토'에도 바로 이 인셉션 이미지 엔진이 적용되어 있다.
2014년 처음 만들어진 인셉션 V1은 정확도 89.6%의 이미지 인식 능력을 보여줬다(이미지넷 2012 벤치마크 기준). 10개 가운데 9개의 이미지를 정확히 인식했다는 얘기다. 하지만 구글은 이에 만족할 수 없었다. 사람들은 10개 가운데 9개나 맞추는 정확도 대신 10개 가운데 1개나 틀리는 문제에 더 주목하기 때문이다. 더군다나 실생활에서 이미지 분석을 이용하려면 적어도 사람과 다를 바 없는 이미지 분석 능력을 보여주어야만 했다.
2015년 등장한 인셉션 V2는 동일한 작업에서 91.8%의 정확도를 보여줬다. 정확도가 90%가 넘자 구글은 이미지 분석 엔진 상용화에 대한 자신감을 얻었다. 인셉션 V2를 활용한 이미지 분석 서비스 '구글 포토'를 출시했다.
이후 구글은 머신러닝을 활용한 지속적인 인공지능 강화를 반복했다. 이를 통해 22일 구글은 정확도 93.9%의 인셉션 V3를 출시하고, 이를 자사의 서비스에 반영했다.
인셉션은 버전업을 통해 이미지 인식 정확도뿐만 아니라 이미지 인식 능력자체도 더 강화되었다. 이를 통해 보다 자세하고 분석하고 풍부한 표현으로 주석을 달 수 있게 되었다.
<지속적인 개선을 통해 이미지
분석 능력이 보다 정확하고 표현력이 더욱 풍부해졌다>
인셉션 V3는 오늘 공개한 텐서플로를 활용한 이미지 캡션 기능 오픈소스를 바탕으로 완성된 인공지능이다. 원래 구글의 기존 머신러닝 교육 시스템은 디스빌리프(DistBelief) 소프트웨어 프레임워크로 구현되어 있었다. 이를 텐서플로 기반의 교육 시스템으로 전면 교체했다. 이를 통해 인공지능을 교육하는데 들어가는 시간을 1/4 수준으로 단축할 수 있었다. 디스블리프 소프트웨어프레임워크는 교육 단계마다 3초가 소모됐으나, 텐서플로는 0.7초밖에 소모되지 않는다.
구글의 이미지 엔진은 인셉션 V3 기반이지만, 오늘 공개된 오픈소스에는 차세대 이미지 엔진 인셉션 V4의 기술도 포함되어 있다. 구글은 자사의 머신러닝 기술을 지속적으로 오픈소스로 공개함으로써 텐서플로를 머신러닝 기술의 표준으로 정착시키고, 머신러닝을 활용한 이미지 인식 기술의 정확도를 99.9%까지 끌어올리려는 야심을 드러냈다.
구글이 깃허브에 공개한 텐서플로를 활용한 이미지 캡션 기능의 소스는 깃허브 페이지(https://github.com/tensorflow/models/tree/master/im2txt)에서 내려받을 수 있으며, 인셉션 이미지 엔진에 관한 보다 자세한 내용은 구글 리서치 블로그(https://research.googleblog.com/2016/08/improving-inception-and- image.html)에서 확인할 수 있다.
글 / IT동아 강일용(zero@itdonga.com)