IT DONGA

네오사피엔스 김태수 "영혼 느껴지는 'AI 성우' 현실화"

김영우

[IT동아 김영우 기자] 4차 산업혁명시대의 본격화로 인해 AI(인공지능)가 사람의 일을 대체하는 사례가 확연히 늘어나고 있다. 목소리를 통해 이야기를 이끄는 역할 역시 이전에는 사람의 일이었으나 앞으로는 음성 합성과 AI 기술의 발달로 인해 탄생한 'AI 성우'가 상당부분 이 일을 대신하게 될 것으로 예상된다.

다만, 문제는 '목소리'라는 수단의 특징이다. 사람의 목소리는 같은 말을 하더라도 감정에 따라 느낌이 확연하게 달라지며, 뉘양스의 미묘한 변화에 따라 전혀 다른 의미를 품기도 한다. 이러한 아날로그적인 특성을 디지털 기술로 완벽히 재현하는 것이 가능할까?

AI 기반 음성 합성기술 스타트업인 '네오사피엔스(Neosapience)'는 그런 과제를 해결하겠다고 선언했다. 이 회사에서 선보인 '타입캐스트(TypeCast)' 서비스는 문자를 단순히 음성화 하는 것을 넘어 특정인의 음성을 학습하고 다양한 감정을 표현할 수 있다. 이를 기반으로 배우나 가수, 성우 등의 유명인들이 자신의 목소리를 상품화하는 등의 응용도 가능하다고 강조하고 있다. 9월 27일, 네오사피엔스의 김태수 대표를 만나 그들이 선보인 AI 음성 합성기술의 이모저모에 대해 알아봤다.

네오사피엔스 김태수 대표<네오사피엔스 김태수 대표>

Q. 본인에 대한 간단한 소개를 부탁한다

2007년에 카이스트에서 오디오 머신러닝 관련 연구로 박사학위를 받았으며, 그 후 LG전자에서 3년, 퀄컴에서 7년을 일하며 각종 기술을 개발했다. 특히 퀄컴 근무 시절, 항상 켜져있는 마이크를 이용한 지능형 음성 인식기술을 개발해 2013 MWC(모바일월드콩그레스) 현장에서 첫 선을 보인 바 있다. 이 기술이 아마존의 AI 음성 비서 서비스인 '알렉사'의 기반이 되었으며, 마이크로소프트 '코타나'에도 적용됐다. 그 외에도 애플 '시리'등의 유사 서비스가 등장하는데도 적잖게 영향을 줬다. 네오사피엔스를 설립한 건 2017년 11월의 일이다.

Q. 대기업 소속의 안정적인 지위를 버리고 독립하게 된 이유는?

사실 2016년 겨울에 갑작스럽게 쓰러져 죽음의 문턱까지 다녀온 적이 있다. 그런 와중에 시간의 유한함을 문득 느꼈다. 내가 떠나면 가족들은 어쩌지? 세상은 나를 어떻게 기억할까? 등의 생각을 하다가 뭔가 좀 크고 의미 있는 일을 해보자, 우리의 삶을 바꿀 수 있는 일을 해보자고 결심했다. 

Q. 네오사피엔스 타입캐스트 서비스에 어떤 기술을 적용했는가?

기존의 음성 합성 기술은 단순히 단어나 음소를 붙여 넣는 방식이라 실제로 결과물을 들어보면 대단히 어색했다. 그래서 딥러닝(인공신경망 기반 기계학습) 기반의 AI 음성 합성 기술을 적용했다. 딥러닝 네트워크를 통해 각종 수치와 수식을 조합, 합성하니 자연스러운 결과물을 얻었다. 감정도 합성 가능하다. 이를테면 화를 내더라도 아주 '나긋하게' 화를 내는 것이 가능하다. 이런 미묘한 차이점을 정교하고 자연스럽게 표현할 수 있다.

Q. 기존 음성 합성 서비스 대비 타입캐스트 서비스의 특징은?

대표적인 특징은 톤이 자연스럽다는 것 외에 목소리에 '캐릭터'를 부여하는 것이 가능하다는 점이다. 이를테면 문재인, 트럼프 대통령 등의 특정인물 목소리를 내는 것이 가능하며, 이미 30여개의 캐릭터가 등록된 상태다. 그리고 성능을 확인한 후 이런 저런 시도를 해봤는데, 처음으로 시도한 것이 외국인의 목소리로 한국어를, 혹은 그 반대로 구사하도록 하는 것이다. 실제로 트럼프 대통령의 목소리로 한국어를, 문재인 대통령의 목소리로 영어를 구사하는 것이 가능하다.

트럼프 대통령의 한국어 구사 합성 장면을 담은 네오사피엔스의 유튜브 동영상
<트럼프 대통령의 한국어 구사 합성 장면을 담은 네오사피엔스의 유튜브 동영상>

Q. 위와 같은 기술적 특성을 이용해 어떤 응용이 가능한가?

이를테면 CNN 같은 외국 언론에선 외국인 인터뷰를 영어로 더빙을 하는 경우가 많다. 그리고 어떤 한류스타가 외국 팬을 상대로 외국어 음성 메시지를 전하고자 할 때도 있다. 혹은 외화를 한국어로 더빙하고자 할 때 '모건 프리먼' 같은 외국 배우가 직접 자신의 목소리로 한국어 연기를 할 수 있다고 생각해보라. 응용 방법은 무궁무진하다.

Q. 현재 서비스 상황은 어떠 한가?

타입캐스트는 지난 6월 중순부터 오픈베타 서비스를 하고 있으며 현재 5,000여명이 쓰고 있다(10월 중 유료화 예정). 특히 유튜버들에게 인기가 높은데, 이들도 자신의 콘텐츠에 넣을 목소리가 필요하기 때문이다. 그리고 중소기업에서 자사의 홍보자료, 안내용 콘텐츠를 만들 때도 종종 이용하고 있다. 이들이 사람을 직접 고용하려면 비용이 많이 들었을 것이다.

그리고 대교의 오디오북 사업에도 기술을 공급하고 있다. 대교는 이야기책 등의 문자 콘텐츠를 오디오북으로 만드는 사업을 전개하고 있는데, 성우나 내레이터를 직접 고용하고 녹음 및 편집을 하려면 한 권당 최소 수백만원의 비용과 2주 정도의 시간이 들었다고 한다. 하지만 타입캐스트 적용 이후 작업에 드는 비용과 시간이 대폭 줄어들었다. 현재 대교에서 타입캐스트 기반 오디오북을 실제로 서비스를 하고 있는데, 사람이 직접 녹음한 기존 오디오북과 이용요금이 동일한데도 불구하고 사용자들의 반응은 좋다.

Q. 유명인의 목소리를 합성해서 표현 가능한 것이 법적인 문제가 될 가능성은 없을까?

심하게 규제를 하려 한다면 이런 합성 음성을 쓸 때마다 배경에 '가짜 음성입니다' 하는 메시지를 넣어야 하는게 의무화될 수도 있다. 하지만 그런 식으로 걸고 넘어진다면 어떤 기술도 시도를 할 수 없게 된다. 오히려 연예기획사 등에서 이런 기술에 호응하고 있다. 이를 이용해 새로운 비즈니스 기회를 만들 수 있기 때문이고 실제로 논의도 진행하고 있다. 다소 논란이 될 수 있으나 이는 시장 초기라 그런 것이며, 조만간 사회적으로 합의점이 도출될 것으로 보인다.

Q. 음성 콘텐츠의 매력은 무엇이며 그 미래에 대한 예상은?

음성 콘텐츠는 영상 콘텐츠와 달리 멀티태스킹(다중작업)이 가능하다. 음성 방송을 들으며 글을 읽거나 공부를 할 수도 있고 운전이나 운동도 가능하다. 사용자의 시간을 빼앗는 영상과 달리, 음성 콘텐츠는 시간의 낭비를 최소화할 수 있다. 라디오가 아직도 생명력을 유지하는 것도 그런 이유다. 그리고 세상에 가장 많은 콘텐츠가 아직 문자 기반이다. 이를 멀티미디어화 하는데 타입캐스트가 그 시발점이자 관문이 될 것이다. 또한 영상 콘텐츠를 제작하는 데도 음성이 필요하기 때문에 타입캐스트의 가능성은 무궁무진하다.

네오사피엔스 김태수 대표<네오사피엔스 김태수 대표>

그리고 우리는 향후 실시간으로 음성 대화하는 기술의 개발에 무게를 두고 있다. 시리나 빅스비 같은 AI 서비스가 이미 있지만 아직도 기계적인 느낌이 강하다. 우리의 기술이 이런 음성 AI에 마치 살아있는 것처럼 영혼을 불어넣을 수 있다. 또한 AI 기반의 디지털 인간을 만들고자 하는 기업들이 많은데 이들은 목소리가 없어서 고민을 하고 있다. 이러한 4차 산업혁명 분야에 우리의 기술이 큰 도움이 될 것이다.

글 / IT동아 김영우(pengo@itdonga.com)

이전 다음