인공지능과 구글 번역의 만남
[IT동아 강일용 기자] 지난 15일 구글 번역(translate.google.com)에 차세대 언어 번역 기술인 '신경망 번역' 기술이 적용됐다. 구글코리아는 서울 역삼동 구글코리아 사무실에서 신경망 번역 기술을 통해 구글 번역의 번역 품질이 얼마나 향상되었는지 알리는 기자간담회를 개최하고 구글 번역과 신경망 번역의 현재와 미래에 대해서 설명했다.
구글 번역은 전 세계에서 가장 널리 이용되는 언어 번역 서비스다. 하루에 10억 건 이상의 번역 요청을 처리하고 있고, 이를 통해 1,400억 개 이상의 단어를 번역하고 있다. 매월 5억 명 이상의 사용자가 구글 번역을 이용하고 있다. 현재 구글 번역이 번역할 수 있는 언어는 103개에 이르며, 이는 전 세계 온라인 인구 99%를 감당할 수 있는 수치다. 전체 구글 번역 이용의 92%가 미국 외 지역에서 발생할 만큼 글로벌화된 서비스다.
구글은 전체 인터넷 콘텐츠의 50%가 영어로 되어 있는 반면, 영어를 읽고 이해할 수 있는 사용자는 전체 인터넷 사용자의 20%에 불과한 현실을 해결하기 위해 구글 번역을 서비스하기 시작했다. 구글 번역의 궁극적인 목표는 전 세계 모든 인터넷 사용자가 인터넷 콘텐츠에 언어 장벽 없이 접근하는 것이다.
신경망 번역이란?
'신경망 번역(Neural Machine Translation)'이란 인공지능의 핵심 기술인 '머신 러닝(기계 학습)'을 활용한 번역 서비스다. 머신 러닝을 통해 생성된 '번역 모델(번역 인공지능)'이 문장 전체의 흐름을 인식하고 문장 속에 담긴 작성자의 의도를 이해해서 번역을 진행한다.
단어 또는 어구를 먼저 번역한 후 이를 퍼즐 맞추듯이 조립해야 했기 때문에 문장의 구조가 매우 어색하고, 문장 속에 담긴 작성자의 참뜻을 이해하지 못했던 기존의 '어구 기반 기계 번역(Phrase Machine Translation)'의 한계를 뛰어넘은 신 기술이다.
신경망 번역이 적용된 번역 모델은 먼저 인터넷 상에 떠돌아다니고 있는 인간이 미리 번역해 놓은 콘텐츠를 웹 크롤링을 활용해 수집했다. 이를 바탕으로 번역 모델은 초기 번역 시스템을 구축하고, 구글의 개발자에게 해당 언어의 번역을 제대로 수행하고 있는지 일일이 확인 받았다(감독학습). 지도 학습이 끝난 후 번역 모델은 인간의 도움 없이 스스로 특정 언어 데이터를 수집하고 이를 바탕으로 스스로의 성능을 강화했다(비감독학습).
지난 9월 구글은 영국의 과학 잡지 네이처에 이러한 내용을 담은 신경망 모델 논문을 게재했다. 당시 구글 번역 신경망 모델은 중국어-영어 번역에만 적용된 상태였다.
구글은 이러한 신경망 번역을 한국어를 비롯해 영어, 프랑스어, 독일어, 스페인어, 포루투갈어, 중국어, 일본어, 터키어 등 9개 언어에 적용했다. 이제 9개 언어간 번역은 어구 기반 기계 번역 대신 신경망 번역 기술을 활용해 진행된다. 이번 신경망 번역 기술 적용을 통해 구글 번역은 전 세계 인터넷 인구의 1/3에 고품질 언어 번역 서비스를 제공할 수 있게 되었다.
<현재 구글 번역
영한 번역에는 신경망 번역 기술이 적용된 상태다>
구글 번역의 발전
신경망 번역을 도입함에 따라 구글 번역은 더욱 자연스럽고 더욱 정확한 번역 서비스를 제공할 수 있게 되었다. 신경만 번역은 기존 번역에 비해 번역 오류가 55~80%까지 줄어들었다.
버락 투로프스키 구글 번역 프로덕트 매니지먼트 총괄은 "신경망 번역 기술은 구글 번역이 지난 10년 동안 쌓아온 발전을 단 하루 만에 뛰어넘은 위대한 도약이다"며, "신경망 번역 기술에서 가장 혁신적인 부분은 문장을 사람처럼 통째로 이해한 후 번역하는 것에 있다. 구글 번역은 이제 문맥을 중시하고 실제 사람이 작성한 문장처럼 문장을 다듬어서 결과를 보여준다. 덕분에 문법이 다른 언어끼리도 제대로 번역된다"고 신경망 번역의 장점을 설명했다.
실제로 많은 사용자들이 신경망 번역이 적용된 후 구글 번역의 품질이 전보다 훨씬 자연스럽고 정확해졌다고 평가했다. 아직 전문가가 직접 번역한 것만은 못하지만, 일상 생활에 이용할 수 있을 정도로 자연스러운 문장을 만들어낸다는 설명이다. 문장에 약간 어색한 부분이 남아있지만, 이제 이해하지 못할 정도로 황당한 비문을 만들어내지는 않는다는 평가다.
구글이 신경망 번역을 활용한 번역 모델을 구축하는데 텐서플로 유닛(구글의 오픈소스 머신러닝 기술)이 큰 역할을 했다. 텐서플로 유닛 덕분에 언어 번역 속도를 3~8배까지 빠르게 할 수 있었다. 이를 통해 번역에 많은 시간이 걸린다는 신경망 번역의 가장 큰 문제점을 극복할 수 있었다.
구글은 번역 모델을 구축할 때 언어별로 모델을 각각 만들지 않고, 구조가 비슷한 언어끼리 묶어서 모델을 구축했다. 예를 들어 한국어의 경우 언어 구조가 비슷한 일본어, 터키어와 번역 모델을 공유한다.
이렇게 번역 모델을 줄이는 것은 큰 의미가 있다. 만약 103개에 이르는 언어를 각각의 상황 별로 모델을 구축하려면 총 1만 506개의 번역 모델을 만들어야 한다. 하지만 유사한 언어끼리 번역 모델을 공유하면 번역 모델의 수를 크게 줄일 수 있고, 각각의 번역 모델이 서로 학습한 내용을 공유할 수도 있다. 덕분에 번역 모델 구축에 들어가는 리소스를 크게 줄일 수 있었다.
또한 하나의 언어를 교육하면 유사한 언어까지 함께 교육되는 장점이 있다. 예를 들어 힌두어 번역 모델을 구축하면 힌두어와 유사한 뱅갈어까지 번역 성능이 강화된다. 때문에 사용자가 적은 언어도 번역을 더욱 정확하고 매끄럽게 진행할 수 있게 된다.
투로프스키 총괄은 "현재 신경망 번역의 가장 큰 과제는 문맥 속에 담긴 뜻을 해독하는 것이다. 문맥의 진정한 의미, 성별 등 고차원적인 부분을 아직 이해하지 못하고 있다. 이러한 문제를 해결하기 위해 번역 모델의 고도화 작업을 진행하고 있다"고 전했다.
신경망 번역은 구글 번역 웹 페이지(모바일 포함) 또는 구글 번역 앱에서 이용할 수 있다. 크롬 웹 브라우저 속 구글 번역 서비스에는 아직 신경망 번역이 적용되지 않은 상태다. 구글 관계자는 가까운 시일 내로 크롬 웹 브라우저의 번역 서비스에도 신경망 번역이 적용될 것이라고 밝혔다.
글 / IT동아 강일용(zero@itdonga.com)