구글 “음성 인공지능 USM으로 세계 언어 장벽 허문다”

[IT동아 차주경 기자] 구글이 100개 이상의 언어를 자동으로 인식하고, 이를 번역하거나 자막으로 만드는 음성 인공지능 ‘USM(Universal Speech Model)’의 발전 현황을 공개했다. 구글은 USM의 개발 상황과 성과, 학습 구조와 개선 계획을 함께 소개하면서 연구자들에게 API(Application Programming Interface, 앱 개발 도구) 접근 권한도 준다고 밝혔다.

구글 1,000개 언어 이니셔티브 프로그램 소개 사진. 출처 = 구글 블로그
구글 1,000개 언어 이니셔티브 프로그램 소개 사진. 출처 = 구글 블로그

USM은 구글이 2022년 11월 공개한 ‘1,000개 언어 이니셔티브’를 현실로 이끌 첫 기술이다. 1,000개 언어 이니셔티브는 세계 각국의 언어 1,000개를 지원하는 인공지능 모델이다. 당시 구글은 USM의 개념을 함께 설명했는데, 이번에는 USM이 어떤 방식으로 얼마나 많이 공부했고 어느 정도의 능력을 발휘했는지 밝혔다.

구글 USM은 지금까지 300개 이상의 언어로 말한 목소리를 1,200만 시간 분량, 문장을 280억 개 이상 분석하면서 공부했다. 구글은 영어와 중국어 등 세계 주요 언어는 물론, 세계에서 2,000만 명 미만이 쓰는 소수 언어에 이르기까지 다양한 종류의 목소리와 문장을 가르쳤다고 강조했다.

각기 다른 언어 300여 개를 인공지능에게 가르치는 것은 여간 어려운 일이 아니다. 쓰는 사람이 적은 소수 언어는 목소리와 문장 데이터 자체를 구하기 어렵다. 이 데이터를 구했다고 해도, 이것을 인공지능에게 가르칠 때 필요한 레이블(분류 기록)의 지정 작업이 또 하나의 난관이다. 데이터가 많을수록, 분석하기 까다로울수록 레이블 지정에 수고와 비용이 많이 든다.

구글 USM이 배운 세계 각국의 언어들. 출처 = 구글 블로그
구글 USM이 배운 세계 각국의 언어들. 출처 = 구글 블로그

수많은 언어 데이터를 알맞게, 그리고 효율 좋게 분석해서 인공지능에게 가르칠 알고리듬(명령을 수행하는 절차)도 찾아내야 한다. 이 알고리듬은 수많은 데이터를 원활하게 받아들여야 하며 수시로 개선해도 교육에 영향을 주지 않아야 한다. 새로운 언어(데이터)의 목소리와 문장을 접해도 혼동하지 않고, 이전과 같은 방식으로 받아들이는 유연성도 발휘해야 한다.

구글은 먼저 300여 개 언어의 목소리 데이터 1,000만 시간 분량을 레이블 지정 작업 없이 USM에게 가르쳤다. 여기에 가장 많은 자원을 할당했다. 이어 두 번째로 300여 개 언어의 문장 데이터 280억 개를 가르치면서 이를 분석하는 인코더(데이터를 신호로 바꾸는 기능), 목소리 인코더와 문장 인코더를 합치는 알고리듬을 새로 적용했다. 동시에 레이블 지정 작업을 하지 않은 목소리 데이터, 레이블 지정 작업을 한 목소리 데이터(200만 시간 분량)와 문장 데이터 모두를 USM에게 가르쳤다. 세 번째로 USM을 미세 조정(기존 데이터로 인공지능을 다시 훈련시키는 절차)하면서 알고리듬이 얼마나 모델링(인공지능이 데이터를 분석해 알고리듬을 만드는 과정)을 잘 하는지 검증했다.

구글이 USM을 가르친 과정. 출처 = 구글 블로그
구글이 USM을 가르친 과정. 출처 = 구글 블로그

구글은 USM의 능력을 파악하려고 유튜브의 다국어 목소리 데이터를 제시했다. 이 다국어 목소리 데이터는 73개 언어로 구성됐는데, 각 언어당 3,000시간 미만의 분량만 있을 정도로 규모가 작았다. 그럼에도 구글 USM은 다국어 목소리 데이터를 듣고 평균 30% 미만의 단어 오류율(WER, Word Error Rate, 음성 인식이나 기계 번역의 성능을 측정하는 기준)을 기록했다. 이는 지금까지 나온 음성 인공지능 가운데 가장 우수한 수치다. 구글 USM은 음성 번역도 잘했다. BLEU(BiLingual Evaluation Understudy, 언어간 기계 번역의 품질을 평가하는 기준)실험 결과, 여기에서도 지금까지 나온 음성 인공지능 가운데 가장 우수한 성적을 냈다.

세계에는 7,000개 이상의 언어가 있다고 알려졌다. 구글 USM은 극소수 사람만 쓰는 언어라 해도, 인공지능이 원활하고 정확하게 다룬다는 것을 증명했다. 사어(사라진 언어)를 다룰 가능성도 있다. 구글 USM이 고도화를 거쳐 언어의 장벽을 허물면, 세계인 누구나 편리하게 소통하는 시대가 열릴 것으로 기대한다.

구글은 “USM은 세계의 정보를 체계화해서 누구나 쉽게 접근하도록 돕는 중요한 기술이다. 이번 성과는 1,000개 언어 이니셔티브를 구축할 토대가 될 것이다.”라고 밝혔다.

글 / IT동아 차주경(racingcar@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.