구글·네이버 위협하는 딥엘(DeepL) 번역기, 한국어 버전 품질은?
[IT동아 남시현 기자] 인공신경망은 인간의 두뇌에 있는 뉴럴의 신호체계로부터 영감을 얻은 인공지능의 동작 방식으로, 뉴런에 해당하는 노드들이 여러 계층으로 각기 연결되어 최적의 값을 도출해 낸다. 인공신경망은 기계 학습의 한 갈래로 데이터 마이닝과 네트워크 관리, 모델링 및 과학 이론 개발 등 폭넓은 분야에서 응용되는데, 일상 속에서는 자연어 처리 기능이 널리 쓰인다. 오늘날 네트워크 기반의 번역기 대다수가 인공신경망을 활용해 언어를 처리한다.
2016년 인공신경망 번역이 적용되기 이전의 번역기는 구문 기반 기계번역(PBMT)을 사용했다. 글의 형태와 단어만으로 내용을 번역하니 품질이 떨어지고, 앞뒤가 맞지 않았다. 반면 인공신경망 번역은 웹에서 수집된 데이터로 단어와 문장의 문맥을 분석한 다음 번역하기 때문에 품질이 훨씬 뛰어나다. 다만 한국어는 우리나라에서만 사용해 데이터가 부족하고, 또 로마자 기반 언어와 체계가 달라서 번역 품질이 좋지 않다. 그래서 지금까지는 데이터베이스 확보가 용이한 구글과 네이버가 국내 기계번역 시장을 양분하는 상황이었다.
딥엘(DeepL), 독자적인 인공신경망으로 한국어 번역 접근
이미 구글과 네이버가 시장을 독식하고 있는 상황이지만, 지난 1월 독일의 인공지능 커뮤니케이션 기업 딥엘(DeepL)이 양강 구도의 시장에 도전장을 내밀었다. 딥엘은 2017년 야로스와프 쿠틸로브스키(Jaroslaw Kutylowski)가 설립한 기업으로, 인공신경망 번역을 기반으로 하면서도 네트워크 아키텍처와 학습 데이터, 학습 방법 등에 차별화를 두어 언어의 미묘한 문맥 차이나 뉘앙스까지 파악한 번역 결과를 내놓는다.
딥엘의 핵심은 공통된 어원을 갖는 쌍형어 사전 '링게(Linguee)' 기반의 인공신경망 데이터베이스다. 여러 언어로 작성됐지만 동일한 내용을 담은 문서를 데이터로 삼는다. 여러 언어로 쓰이는 EU 의회 문서나 법률, 영어와 프랑스어가 공용인 캐나다 정부 등의 문서가 대표적이다. 또한 번역 결과를 반복 대조해 오차를 수정하고, 번역에 필요한 데이터인 매개변수를 작은 단위로 쪼개어 학습한다. 덕분에 대형 컴퓨팅 클러스터가 필요한 타사의 인공신경망과 다르게 작은 시스템에서도 번역 품질을 유지한다.
단순 웹 번역 넘어 API로 기능 구현··· 활용도 높아져
딥엘 번역기는 홈페이지를 방문해 누구나 무료로 사용할 수 있다. 흥미로운 점은 타사 번역기와는 다르게 더 빠른 번역을 위한 유료 버전이 있으며, 다른 시스템으로 탑재할 수 있도록 API(애플리케이션 프로그램 인터페이스) 형태로도 배포한다. API를 활용하면 기업 내 커뮤니케이션에 실시간 번역을 적용하거나, 운영체제 및 애플리케이션의 현지화, 증강현실 번역 등 다양한 형태로 쓸 수 있다.
번역 기능 측면에서는 문장 번역뿐만 아니라 서식이 있는 문서 형태의 파일을 번역하거나, 웹 페이지 전체를 번역하는 기능도 제공된다. 구글 크롬의 확장 프로그램으로 설치해 웹 채팅을 실시간 번역하거나 이메일을 번역하는 등의 방식으로도 쓸 수 있다. 그렇다면 딥엘의 번역 품질은 어느 정도일까?
딥엘 번역의 품질을 시험해보기 위해 구글 번역기와 딥엘 번역기에 동일한 문장을 번역하고 그 결과를 분석했다. 사용한 문서는 영문으로 작성된 버전과 한국어로 작성된 버전이 각각 존재하는 버전을 활용했다. 가장 먼저 활용한 번역은 애플코리아가 지난 7일 배포한 ‘나랑 노랑! Apple, 새로운 iPhone 14 및 iPhone 14 Plus 발표’에 포함된 내용 중 일부다.
애플코리아 한글 보도자료 - 프로급 12MP 메인 카메라, 울트라 와이드 카메라, 새로운 전면 TrueDepth 카메라와 함께라면, 첨단 카메라 시스템을 언제나 휴대하고 다니는 셈이다.
애플 영문 보도자료 - With a pro-level 12MP Main camera, the Ultra Wide camera, and a new front TrueDepth camera, users have an advanced camera system right in their pockets.
구글 번역 - 전문가 수준의 12MP 메인 카메라, 울트라 와이드 카메라 및 새로운 전면 TrueDepth 카메라를 통해 사용자는 주머니에 바로 고급 카메라 시스템을 사용할 수 있습니다.
딥엘 번역 - 전문가 수준의 1,200만 화소 메인 카메라, 울트라 와이드 카메라, 새로운 전면 트루뎁스 카메라가 탑재되어 있어 사용자는 고급 카메라 시스템을 주머니에 넣고 다닐 수 있습니다.
우선 한글 보도자료의 경우 번역가의 의역이 포함돼 있고, 조금 더 문장이 매끄럽게 사용됐다. 반면 딥엘과 구글 번역은 영문을 가감 없이 번역한다. 이때 딥엘 번역의 내용을 보면 12MP를 1,200만 화소로, 그리고 TrueDepth를 트루뎁스로 번역한 점이 인상적이다. 12MP는 12 Megapixel의 약자로, 관련 지식이 있어야 1,200만 화소라고 쓸 수 있다. 즉 단위를 한국에서 쉽게 이해할 수 있는 단위로 환산해서 번역한 것이다. 트루뎁스 역시 고유명사라서 번역기가 이를 인지해야 번역이 가능한 부분이다.
번역기의 기본은 직역임에도 이해를 돕기 위해 이런 부분까지 의역했다는 부분은 실로 놀랍다. 아울러 고급 카메라 시스템을 주머니에 넣고 다닌다는 부분도 구글 번역보다 딥엘 번역의 문장이 조금 더 원문에 가깝다. 심지어 애플코리아의 보도자료는 다소 꾸밈이 들어갔기 때문에 문장 자체는 딥엘 번역이 더 이해하기 쉽다.
훨씬 더 어려운 문장을 시도해 봤다. 올해 2월 한국IBM이 배포한 ‘IBM과 미국 항공우주국(NASA), 기후 변화 영향 연구에 AI 활용 협력’ 보도자료 중의 내용을 발췌했다.
한국IBM 보도자료 - IBM의 지형 공간 정보(geospatial intelligence) 파운데이션 모델은 지구 궤도 위성에서 수집한 토지 피복 (지표면에 존재하는 물질 및 그 분포 상황) 및 토지 이용 변화 기록인 NASA의 HLS(Harmonized Landset-Sentinel-2) 데이터 세트를 학습하게 된다
IBM 보도자료 - One project will train an IBM geospatial intelligence foundation model on NASA's Harmonized Landsat Sentinel-2 (HLS) dataset, a record of land cover and land use changes captured by Earth-orbiting satellites
한글 보도자료에 열거된 문장을 보면 ‘IBM이 보유한 지형 공간 정보 기반 모델은 나사의 HLS 데이터 세트를 통해 학습하게 된다’가 핵심이다. 중간에 지구 궤도 위성에서 수집한 토지 피복 및 토지 이용 변화 기록은 HLS를 부연설명하는 내용이다. 이 때문에 한글 번역에서는 ‘IBM의 지형 정보 공간’의 어순을 앞으로 배치해 문장을 다듬었다.
구글 번역 - 한 프로젝트에서는 NASA의 HLS(Harmonized Landsat Sentinel-2) 데이터 세트, 즉 지구 궤도를 도는 위성이 캡처한 토지 피복 및 토지 이용 변화 기록에 대해 IBM 지리 공간 정보 기반 모델을 교육합니다.
딥엘 번역 - 한 프로젝트는 지구 궤도를 도는 위성이 포착한 토지 피복 및 토지 이용 변화 기록인 NASA의 조화로운 랜드샛 센티넬-2(HLS) 데이터 세트를 기반으로 IBM 지리공간 인텔리전스 기반 모델을 학습시킵니다
비슷하게 번역된 것 같지만 구글의 결과는 NASA의 HLS를 활용해 IBM 지리 공간 정보 모델을 교육한다는 내용이 심각하게 꼬여있다. 엄밀히 말해서 틀린 번역은 아니지만 정상적인 문장이 아니라서 내용을 파악하기가 대단히 어렵다. 반면 딥엘의 결과물은 문장을 이해하는 데 전혀 문제가 없을 정도로 깔끔하게 배치돼 있다. 문서 하나를 번역한다면 전반적인 이해도에서 큰 차이를 보이게 될 것이다.
작품 번역은 난해, 문맥 이해는 문제없어
하지만 인공신경망 번역이 진입하지 못하는 영역이 있다. 바로 문학이다. 문학은 단순히 언어를 옮기는 것 이상의 작업이기 때문에 번역기를 활용했을 때 작가가 내포한 뜻을 놓치거나 이해하지 못할 수 있다. 하지만 딥엘은 특유의 기술력을 앞세워 완벽하진 않더라도 작가의 뜻을 유추하거나 이해할 수 있는 수준에 근접한다. 완벽하진 않으나, 기존의 번역 결과와 비교하면 조금 더 낫다.
천상병 시인의 ‘귀천’ 마지막 문장은 ‘나 하늘로 돌아가리라. 아름다운 이 세상 소풍 끝내는 날, 가서, 아름다웠더라고 말하리라’다. 구글 번역은 ‘I will go back to heaven. The day the picnic ends in this beautiful world, Go ahead and say it was beautiful’ 라고 번역해 비슷한듯 하면서도 마지막 문장은 뜻 자체가 달라졌다. 반면 딥엘의 경우 ‘I will return to heaven. The day my beautiful earthly picnic ends, I will go and say it was beautiful’ 로 번역했다.
구글의 경우 이 세상을 world로 번역한 반면, 딥엘은 세속적이라는 뜻을 담은 earthly가 사용됐다. 양쪽 다 국문을 영문으로 완전히 녹여내는 의미는 아니지만, 단순히 외국어로 옮긴 기준이라면 earthly가 더 전달력이 있다는 생각이 든다. 또 마지막 문장에서 구글 번역은 ‘가서,’를 Go ahead로 번역한 반면, 딥엘은 I will go라는 말을 사용했다. Go ahead도 틀린 말은 아니지만 내세에 가는 의미보다는 물리적으로 갔을 때라는 느낌이 드는 단어 선택이다. 결과적으로 딥엘의 번역 쪽이 조금 더 메시지를 잘 담는다는 생각이 든다.
완성도 기대 이상, 시장 판도 뒤집을까
우리 입장에서는 딥엘이 혜성처럼 등장했다고 여겨질 수 있지만, 이미 딥엘은 전 세계 인공지능 번역 업계의 화두다. 딥엘은 전 세계 수백만 명의 이용자와 2만 여 개의 기업이 이용하고 있으며, 지원하는 언어도 한국어가 31번째다. 올해 1월에는 영어와 독일어를 대상으로 문장의 구문, 어조, 스타일 및 단어 선택을 더욱 최적화하는 딥엘 라이트(DeepL Write)까지 선보였다. 문장 번역을 넘어서 이미 작성된 문장의 가독성과 완성도까지 높이는 단계에 접어든 상황이다.
십수 년 간 번역 프로젝트를 추진해 온 구글이나 홈 그라운드 이점을 등에 업은 네이버의 파파고에 비해 입지는 부족한 건 맞다. 하지만 확실히 나은 결과물을 보여주는 만큼, 국내 시장에서 점유율을 끌어올리는 건 시간문제로 보인다.
글 / IT동아 남시현 (sh@itdonga.com)