"몇 년 내로 인공지능이 사람보다 더 잘 보는 시대가 온다"

강일용 zero@itdonga.com

[IT동아 강일용 기자] 약인공지능 가운데 가장 대표적인 기술인 '컴퓨터 비전' 기술의 완성도가 점점 무르익고 있다. 이제 인공지능이 사람보다 사물과 풍경을 더 '잘 보는' 시대가 코 앞으로 다가온 것이다.

닐 알드린 구글 소프트웨어 엔지니어(컴퓨터 비전 리서치 담당)는 "이미 구글 인공지능에 적용된 컴퓨터 비전 모델의 능력은 사람보다 뛰어난 부분도 있다"며, "수년 내에 구글의 컴퓨터 비전이 인간보다 사물과 풍경을 더 잘 구분하는 시대가 올 것"이라고 말했다.

닐 알드린 구글 소프트웨어
엔지니어
닐 알드린 구글 소프트웨어 엔지니어
<구글 컴퓨터 비전 리서치 담당 닐 알드린 박사>

약인공지능이란 인공지능을 분류하는 방식으로, 인지능력(보고 듣는 등 세상과 사물을 인식할 수 있는 능력)을 갖춘 인공지능을 말한다. 자아를 가지고 스스로 판단할 수 있는 강인공지능의 하위 모델로 현재 모든 인공지능 모델은 약인공지능 단계에 머물러 있다.

컴퓨터 비전이란 인공지능의 한 분야로 컴퓨터를 사용해 인간의 시각적인 인식 능력을 재현하는 연구 분야를 말한다. 최근 인공지능 학습 능력의 대세인 인공 신경망(딥러닝) 기술을 통해 비약적인 발전을 이룬 분야다.

구글코리아는 22일 ‘인공지능 혁신과 구글 포토 들여다보기’ 기자간담회를 개최하고, 구글 포토에 인공지능이 어떻게 적용되어 있고, 인공지능의 능력이 사람과 비교해 얼마나 뛰어난지 설명하는 자리를 가졌다.

구글 포토는 인공지능이 적용된 구글의 사진 저장 서비스다. 구글의 인공지능 모델이 사용자가 업로드한 사진을 보고 분석해서, 사용자가 따로 분류를 하지 않아도 알아서 사진을 정리하고 관리해준다.

구글 포토는 강아지, 고양이 등 사물뿐만 아니라 생일, 졸업식 등 상황이나 알프스 산맥, 그랜드캐니언 등 장소도 인식하고 분류해준다. 사람의 얼굴을 인식해서 해당 인물이 촬영된 사진을 한 군데 모아서 관리할 수 있게도 해준다. 심지어 해당 인물이 나이를 먹어서 얼굴이 변하더라도 이를 인식하고 동일한 일물이라고 판단해준다.

구글 포토스
구글 포토스

구글 포토는 대체 어떤 원리로 이러한 일이 가능한 것일까? 이는 인공 신경망을 통해 계속 성능이 강화되고 있는 컴퓨터 비전 기술 구글 ‘인셉션’ 이미지 엔진 덕분이다. 과거 계층화나 그룹화 등 일반적인 방법론으로 인공지능 모델을 학습시킬 때에는 정확도가 75%를 넘기 힘들었으나, 인공 신경망 기술이 상용화됨에 따라 이 한계를 넘을 수 있었다.

구글은 2014년 인공 신경망이 적용된 최초의 컴퓨터 비전 엔진 인셉션 V1을 선보였다. 인셉션 V1은 정확도 89.6%의 이미지 인식 능력을 갖추고 있었다(이미지넷 2012 벤치마크 기준). 10개 가운데 9개의 이미지를 정확히 인식했다는 얘기다. 하지만 구글은 이에 만족할 수 없었다. 사람들은 10개 가운데 9개나 맞추는 정확도 대신 10개 가운데 1개나 틀리는 문제에 더 주목하기 때문이다. 더군다나 실생활에서 이미지 분석을 이용하려면 적어도 사람과 다를 바 없는 이미지 분석 능력을 보여주어야만 했다.

2015년 등장한 인셉션 V2는 동일한 작업에서 91.8%의 정확도를 보여줬다. 정확도가 90%가 넘자 구글은 이미지 분석 엔진 상용화에 대한 자신감을 얻었다. 인셉션 V2를 활용한 이미지 분석 서비스 구글 포토를 출시했다.

이후 구글은 기계학습과 인공 신경망을 활용해 지속적으로 컴퓨터 비전 인공지능 모델의 능력을 강화했다. 이를 통해 정확도 93.9%의 인셉션 V3를 출시하고, 이를 구글 포토, 구글 검색, 구글 클라우드 비전 API(GCP를 통해 제공되는 이미지 인식 API) 등 자사의 서비스에 반영했다.

현재 구글은 정확도가 더욱 향상된 컴퓨터 비전 엔진 인셉션 V4를 개발 중이며, 구글 포토에 업로드한 사진을 분석해서 관련된 상황에 대한 자막을 자동으로 붙이는 기술을 상용화 준비 중이다.

구글 포토의 미래 연구 방향은 크게 세 가지다. 첫 번째는 사람보다 뛰어난 인지 능력을 갖추는 것이다. 예를 들어 고양이 사진을 보고 단순히 고양이라고 인식하는 것을 넘어 이 고양이가 메인 쿤 품종이라는 사실까지 파악하도록 하는 것이다.

두 번째는 특정 이미지가 어떤 장소에서 어떤 상황 하에 촬영되었는지 추론하는 능력을 부여하는 것이다. 예를 들어 특정 사진이 단순히 소를 찍은 사진이 아니라, 안데스 산맥 아래에서 홀스타인 품종의 소가 풀을 뜯어 먹고 있으니, 이는 목장 홍보를 위해 촬영된 사진이라고 분석할 수 있는 능력을 갖추게 된다는 뜻이다.

세 번째는 더욱 가벼운 인공 신경망 모델이다. 인공 신경망은 수 많은 신경망을 거쳐 이미지를 분석하기 때문에 매우 강력한 컴퓨팅 능력이 필요하며, 이를 갖추고도 결과를 도출해내는데 많은 시간이 걸린다. 이를 해결하기 위해 인공지능 모델 자체를 최적화해 더욱 빠르고 성능을 적게 요구하는 모델을 만들겠다는 것이다. 이를 위해 구글은 머신러닝 교육 시스템을 디스빌리프(DistBelief) 소프트웨어 프레임워크에서 텐서플로 기반의 교육 시스템으로 전면 교체했다. 이를 통해 인공지능을 교육하는데 들어가는 시간을 1/4 수준으로 단축할 수 있었다.

글 / IT동아 강일용(zero@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.