번역 속도는 빼고 번역 품질만 평가한 이상한 대회
[IT동아 강일용 기자] 화제를 만들기 위해 무리한 비교를 진행했던 탓일까? 결과를 놓고 설왕설래가 오가고 있다. 바로 어제 열린 '인간 VS 인공지능 번역대결'의 얘기다. 신경망 번역 기술이 적용된 인공지능 번역기의 특성을 고려하지 않고 무리하게 단순 비교를 진행한데다가, 점수 채점 역시 번역 속도를 배제하고 번역 결과물에만 초점을 맞추고 있어 처음부터 인간이 이기도록 규칙을 정하고 대회를 진행했다는 비판을 피할 수 없을 전망이다.
국제통역번역협회(IITA), 세종대학교, 세종사이버대학교는 21일 '인간 VS 인공지능'이라는 주제로 인간 번역사와 인공지능 번역기의 번역 성능을 겨루는 대회를 개최했다. 이번 대회에는 경력 5년 이상의 번역사 4명과 구글(구글 번역), 네이버(파파고), 시스트란 등 신경망 번역 기술이 적용된 인공지능 번역기 3대가 참여했다. 영한 번역과 한영 번역 등 두 가지 부문을 놓고 문학, 비문학 등 4가지 지문이 주어졌으며, 번역할 글자 수는 영한번역은 330단어, 한영번역은 750단어 내외였다. 인간 번역사에게는 번역에 소요되는 시간을 고려해 총 50분이 주어졌다.
번역 결과물을 채점한 결과 인간 번역사는 총 60점 만점에 49점을 기록해 인공지능 번역기를 압도했다. 인공지능 번역기는 각각 28점, 17점, 15점을 기록했다. 개별 채점점수는 원래 공개되지 않았으나, 연합뉴스에 따르면 구글 번역이 28점, 네이버 파파고가 17점, 시스트란 번역이 15점을 기록했다고 알려졌다.
인공지능 번역기의 강점은 전혀 평가하지 않은 이상한 채점방식
그러나 이 비교는 인간 번역사와 인공지능 번역기의 특징을 고려하지 않은 무리한 채점방식이라는 비판이 언론과 SNS, 인터넷 커뮤니티 등지에서 제기됐다. 이유는 간단하다. 인간이 강점을 가지는 번역 품질만 채점하고, 인공지능 번역기의 강점인 번역 속도는 평가에 전혀 반영하지 않았기 때문이다.
인공지능 번역기가 인간 번역사와 비교해 갖는 가장 큰 장점이 바로 번역 속도다. 클라우드 컴퓨팅 속에 존재하는 인공지능 모델이 고성능 CPU와 병렬 연결된 GPU를 활용해 번역을 진행하기 때문에 인간 번역사와 비교할 수 없을 정도로 빠르게 번역을 진행한다.
현재 구글 번역은 한 번에 5000자를 번역할 수 있는데, 이를 처리하는데 걸리는 시간은 불과 1~2초에 불과하다. 인간 번역사의 경우 5000자의 원문을 읽는데에만 최소 2~3분의 시간이 소요된다. 이것도 뜻을 깊이 파악하지 않고 순수하게 원문을 읽는데 걸린 시간만 잰 것이다. 뜻을 파악하고, 번역을 진행하면 이와 비교할 수 없을 정도로 긴 시간이 요구된다.
실제로 이번 대회의 경우 총 50분이 주어졌는데, 인간 번역사는 그 시간을 모두 활용한 반면 인공지능 번역기는 모두 1분 이내에 결과물을 내놨다.
게다가 네이버 파파고의 경우 현재 200자 입력 제한이 있어 대회에서 진행한 330단어, 750단어를 입력하면 신경망 번역 대신 기존에 이용되던 통계 기반 번역으로 번역 결과물을 제공한다. 상대적으로 떨어지는 번역 결과물이 나온다는 얘기다. 네이버 입장에선 17점이라는 결과가 억울할 수밖에 없다. (실제로 IT동아가 구글 번역과 네이버 파파고를 자체 비교한 결과 의역이 조금 많이 나온다는 점을 제외하면 파파고가 구글 번역보다 알아보기 쉽게 번역하는 경우가 제법 많았다.)
때문에 개별 인공지능 번역기의 특징을 파악하지 않고 무리하게 대회를 진행한 것 아니냐는 평가가 나오고 있다. 차라리 진행을 조금 늦추더라도 구글, 네이버 등 인공지능 번역기 개발사를 정식으로 초청해 대회를 진행했으면 보다 공정한 채점 방식과 환경 속에서 대회를 진행할 수 있었을 것이다. 이번 인간 VS 인공지능 번역대결 대결에는 시스트란만 정식으로 참가하고, 구글과 네이버는 참가하지 않았다.
인공신경망 번역은 아직 미완성 기술
인공신경망을 활용한 인공지능 번역은 아직 미완성된 기술이다. 때문에 각 회사별로 제공하는 서비스에 차이가 있다.
구글 번역의 경우 영어, 프랑스어, 독일어, 포르투갈어, 중국어, 일본어, 한국어, 터키어 등 8개 국가 언어를 지원하며, 한 번에 최대 5,000자를 번역할 수 있다. 5000자를 번역하는데 걸리는 시간은 1~2초 내외다.
네이버 파파고의 경우 한국어, 영어, 중국어, 일본어 등 4개국어를 지원하며 한 번에 최대 200자를 번역할 수 있으며, 약 0.5초만에 번역을 완료한다.
시스트란 번역의 경우 영어, 중국어, 한국어 등 총 19개국 언어를 지원하며 한 번에 최대 800자를 번역할 수 있다. 800자를 번역하는데 약 20초 정도가 걸린다(한영 번역 기준).
3사는 번역 모델을 강화하고, 지원하는 언어를 확대하기 위해 연구를 진행하고 있다.
한 번에 번역할 수 있는 단어에 제한이 있는 이유는 신경망 번역이 많은 컴퓨팅 자원을 요구하기 때문이다. 수 많은 신경망을 거쳐서 번역이 진행되기 때문이 많은 CPU, 병렬 GPU 프로세싱 능력을 요구한다. 구글의 경우 세계 최대 규모의 클라우드 컴퓨팅 환경을 갖추고 있어 5,000자를 1초만에 번역하는 서비스를 제공할 수 있었으나, 네이버와 시스트란은 구글만큼의 대규모 컴퓨팅 환경이 없어 컴퓨팅 파워의 효율적인 활용을 위해 아직은 약간의 제한을 두고 있다. 네이버의 경우 200자 제한을 컴퓨팅 파워가 확충되는 올해 여름 정도에 해제할 계획이다.
인간 VS 인공지능 번역대결이 우리에게 남긴 것
그럼에도 불구하고 인간 VS 인공지능 번역대결은 우리에게 많은 시사점을 남겼다. 일단 번역의 정확성 면에선 가장 앞서나간다는 구글 번역도 인간 번역사의 절반 정도의 능력밖에 보여주지 못한 점을 주목해야 한다. 인공지능 번역기는 푸석푸석, 동글동글 등 문학적 요소나 폭발적으로 증가했다(explode)는 비유적인 표현을 전혀 이해하지 못했다. 단지 이를 직역하는 수준에 불과했다. 시, 수필, 소설 같은 문학은 아직 인공지능 번역기가 넘볼 수 없는 인간만의 영역임이 확인되었다.
반면 정치, 법률, 경제 등을 번역할 때에는 인공지능 번역기는 인간 번역사에 얼추 근접한 능력을 보여줬다. 압도적인 번역 속도를 감안하면 뉴스, 공문 등 문학적 표현이 배제된 딱딱한 글을 번역하는 것은 이제 인간이 인공지능 번역기에게 따라잡힐 날이 얼마 남지 않았다는 평가다.
인공지능 번역기는 아직 재검토라는 개념도 존재하지 않는다. 인간은 번역을 여러 번 진행해 번역의 품질을 향상시킬 수 있으나, 인공지능 번역기는 재검토를 진행해도 번역 품질이 향상되지 않는다. 인공지능 번역기가 진정 사람을 대체하려면 이러한 재검토라는 인간만의 특징을 인공지능에게 학습시켜야한다. 신경망 번역 기술을 연구하는 엔지니어들에게 새로운 과제가 주어진 셈이다.
글 / IT동아 강일용(zero@itdonga.com)