허드슨AI “AI 더빙은 어색하다? 배우만큼 자연스럽게 가능합니다” [스타트업-ing]

권택경 tk@itdonga.com

[IT동아 권택경 기자] 한국인들에게 외국 영화를 자막과 함께 보는 건 그리 낯선 일이 아니다. 아동용 영화가 아닌 이상 외국 영화가 더빙으로 개봉되는 일은 거의 찾아볼 수 없을 정도다. 하지만 해외는 사정이 다르다. 유럽에서는 외국 영화를 자국어 더빙으로 개봉하는 게 기본이다.

미국 여론조사업체 모닝 컨설트가 15개 국가 성인을 대상으로 조사한 바에 따르면 조사 대상 국가 중 한국과 중국만 자막 선호도가 70% 이상으로 이례적으로 높고, 나머지는 모두 50%를 밑돈다. 특히 유럽이나 남미 국가는 더빙 선호 경향이 뚜렷하다. 미국 또한 자막 선호가 43%로 더 우세하지만, 더빙 선호층도 36%로 적지 않은 비중을 차지한다. 봉준호 감독이 자막을 ‘1인치의 장벽’으로 언급한 데에는 이런 배경에 자리 잡고 있다.

더빙 선호 경향은 콘텐츠를 해외에 선보이고자 하는 콘텐츠 사업자들에게도 장벽이다. 비교적 적은 비용으로도 제작이 가능한 자막과 달리 더빙은 억 단위의 비용이 들어간다. 언어가 늘어날수록 비용은 배가 된다. 허드슨에이아이(Hudson AI)는 이런 더빙 콘텐츠 제작 부담을 인공지능(AI) 기술로 덜어주고자 하는 스타트업이다.

허드슨에이아이 신현진 대표
허드슨에이아이 신현진 대표

허드슨에이아이의 AI 기반 더빙 솔루션은 더빙에 적합한 어투와 길이로 대사를 번역한 뒤, 원래 배우 목소리를 그대로 살려 음성을 합성해준다. 영상 속 입모양까지도 더빙된 음성에 맞춰 합성해준다. 번역가, 성우, 시각효과 기술자가 협업하듯 언어, 음성, 영상 분야 생성 AI가 솔루션 내에 통합되어 있는 덕분이다. 허드슨에이아이 신현진 대표는 “번역부터 영상까지 엔드 투 엔드로 자연스러운 더빙 콘텐츠를 만들 수 있다”고 소개했다.

허드슨에이아이는 서울대학교 융합과학기술대학원에서 인공지능을 공부한 뒤 대기업에서 AI 모델 개발에 몸담았던 신현진 대표가 함께 연구하던 대학원 동료들과 지난해 6월 공동 창업했다. 퇴근 후 여가 시간에 연구실 동료들과 함께 ‘재밌는 걸 해보자’며 진행했던 사이드 프로젝트가 그대로 창업 아이템이 됐다. 강의 영상과 같은 교육 콘텐츠를 AI로 더빙하는 솔루션을 개발하는 아이디어였다.

미국 여론조사업체 모닝 컨설트의 조사 결과. 옅은 파란색이 자국어 더빙, 진한 파란색이 자막, 노란색이 자막 없이 원어 그대로 감상을 선호하는 층이다. 출처=모닝 컨설트
미국 여론조사업체 모닝 컨설트의 조사 결과. 옅은 파란색이 자국어 더빙, 진한 파란색이 자막, 노란색이 자막 없이 원어 그대로 감상을 선호하는 층이다. 출처=모닝 컨설트

신현진 대표는 “당시만 해도 텍스트 음성 변환(TTS) 기술이 발달하지 않아서 성우를 섭외해 콘텐츠를 만드는 경우가 많았다. 비용도 비용이지만 콘텐츠 내용이 바뀔 때 수정하는 것도 쉽지 않다. 성우가 한국에 없거나 다시 섭외가 안 되면 전체를 재녹음해야 했다”고 말했다.

이런 문제를 해결하고자 만든 게 AI 더빙 솔루션의 전신이다. 그런데 결과물의 수준이 기대 이상이었다. 그때 ‘이걸 교육 콘텐츠에만 쓰는 건 아깝다. 영화나, 드라마에도 적용해보면 어떨까?’ 하는 생각이 신 대표 머릿속을 스쳤다.

TTS 기술을 활용한 더빙은 정보 전달성 콘텐츠에는 이제 널리 사용되고 있지만 영화나 드라마에 적용해 상용화한 사례는 아직 없다. 기존 기술로는 그대로 작품을 감상해도 어색함이 없을 정도로 자연스러운 연기 더빙을 구현하는 게 쉽지 않기 때문이다.

허드슨에이아이가 내세우는 차별점이 바로 이 ‘자연스러움’이다. 신현진 대표는 “기존 TTS 기반 더빙보다 훨씬 자연스러운 연기 톤을 구현할 수 있어 몰입감 높은 더빙 콘텐츠를 제공할 수 있다”고 설명한다. 이를 위해 가이드 성우의 음성을 적극적으로 활용한다. 가이드 성우들이 대본을 리딩하면, 배우 목소리를 학습한 AI가 이를 마치 원래 배우가 연기한 것처럼 자연스러운 음성으로 만들어준다.

허드슨에이아이의 AI 더빙 솔루션. 출처=허드슨에이아이
허드슨에이아이의 AI 더빙 솔루션. 출처=허드슨에이아이

아직까지는 AI에 한계도 존재하기에 사람의 힘을 어느 정도 보태는 셈이다. 그저 ‘AI로 했다고? 신기하다’에 그치는 게 아니라, 위화감 없이 콘텐츠를 즐길만한 수준의 완성도를 내는 게 허드슨에이아이의 지향점이기 때문이다. 마찬가지 이유로 번역 또한 AI로 초벌 번역을 한 뒤 사람이 검수하는 과정을 거친다. 그럼에도 전통적인 더빙 방식과 비교하면 비용 절감 효과는 명백하다.

신 대표는 “영화 한 편에 등장인물이 70명 정도 된다. 1인 다역을 한다고 해도 성우를 수십 명은 섭외를 해야한다. 우리 솔루션을 활용하면 소수의 가이드 성우만 있으면 되니 기존 더빙과 비교해 90% 이상 인원을 줄일 수 있다”며 “비용을 절반 이하로 줄일 수 있다”고 말했다.

물론 AI 더빙 콘텐츠가 단순히 기존 더빙의 대체품 역할만 하는 건 아니다. 신 대표는 AI 더빙 콘텐츠가 오히려 더 높은 몰입감을 줄 수 있다고 설명한다. 원래 배우 목소리를 듣지 못하거나 입모양이 안 맞는 기존 더빙 콘텐츠의 한계가 없어지기 때문이다.

신 대표는 추후에는 가이드 성우 의존도를 낮추고도 자연스러운 연기 톤을 구현할 수 있는 방향으로 연구개발을 진행하고 있다고 밝혔다. 또한 현재 FHD 화질까지만 구현할 수 있는 입모양 생성 영상도 4K 해상도로 개선할 예정이다.

허드슨에이아이 신현진 대표
허드슨에이아이 신현진 대표

허드슨에이아이는 지난해 12월 와이앤아처, 대경기술지주, 아이디어브릿지로부터 7억 원 규모 시드 투자를 유치했다. 신 대표는 “아직 설립 1년도 되지 않은 회사이지만 과기부 주관 미디어 이노베이션 데이에서 최우수상을 수상하는 등 미디어 콘텐츠 영역에서 많은 주목을 받고 있다”고 말했다.

창업 초기이던 지난해 8월에는 SK텔레콤의 스타트업 성장 지원 프로그램인 ‘트루 이노베이션’에도 선정됐다. 사무 공간, 멘토링 등 SK트루이노베이션의 여러 지원 중 가장 도움이 된 건 잠재적 고객 기업과의 네트워킹이다. 신 대표는 “스타트업 입장에서 아무런 레퍼런스 없이 고객 기업과의 접점을 만드는 것 자체가 쉽지 않다. 하지만 SK텔레콤의 도움으로 그룹 계열사를 비롯한 여러 고객 기업과 만날 수 있었고 그 덕분에 우리 기술을 상용화 단계에서 활용할 기회를 얻을 수 있었다”고 말했다.

허드슨에이아이의 솔루션은 현재 국내 대기업, 글로벌 기업을 비롯한 다양한 기업과 실증을 진행하고 있으며, 상반기 내로 실제 상용 서비스에 올라갈 예정인 콘텐츠도 있다. 지금은 프로젝트를 수주하면 솔루션을 활용해 직접 내부에서 더빙 콘텐츠를 제작하는 방식이지만, 향후에는 기술을 고도화해 인증된 파트너들에게 서비스형 소프트웨어(SaaS) 형태로 제공할 계획이다. 신 대표는 “올해 상용화를 시작으로 향후 단순 더빙 분야를 넘어서 콘텐츠 제작 영역 전반을 혁신할 수 있는 기업으로 성장하는 게 목표다”라고 밝혔다.

글 / IT동아 권택경 (tk@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.