[SBA x IT동아] 신티아 “생성형 AI로 고품질 오디오북 대량생산 꿈꾼다”
[SBA x IT동아 공동기획] 서울특별시와 서울경제진흥원(SBA)은 서울 성수·창동·동작에 창업센터를 마련했습니다. 스타트업을 발굴, 초기 창업부터 성장기까지 단계별 프로그램을 지원해 육성합니다. 2024년 두드러진 활동을 펼친, 성장 가능성이 높은 유망 스타트업을 소개합니다.
[IT동아 김예지 기자] 전통적인 종이책이 디지털을 입고 새로운 형태의 독서 방법으로 변모하는 중이다. 디지털 기기를 통해 책을 소비하는 전자책, 오디오북이 대표적이다. 특히 오디오북은 책의 문자를 음성으로 변환해 책을 듣는 방식으로, 다양한 상황에서 손쉽게 들을 수 있고, 멀티태스킹이 가능하다는 장점을 가진다. 책을 소비하는 방식이 눈에서 귀로 확장된 셈이다.
그러나 오디오북 시장은 커지는 데 한계가 있었다. 가장 큰 이유 중 하나는 높은 오디오북 제작 비용과 이로 인해 부족한 콘텐츠 수 때문이다. 오디오북 수요가 증가하는 가운데, ‘신티아’는 이를 해결하기 위해 ‘AI 오디오북 자동제작 서비스’를 출시했다. 기존의 ‘텍스트 음성 변환(TTS, Text to Speech)’ 기술에 생성형 인공지능(AI) 음성 기술을 접목해 기존 대비 오디오북 제작 시간 및 비용을 줄인 것. 나아가, 거대언어모델(LLM)은 사람처럼 자연스럽게 책을 읽어 소비자의 오디오북 경험을 극대화한다. IT동아는 오진환 신티아 대표를 만나 신티아 서비스 및 적용 기술에 대해 물었다.
효율적으로 책을 소비하는 방법 ‘오디오북’
오진환 대표는 평소 독서를 좋아했지만 책 읽을 시간이 부족해 출퇴근 시간 오디오북을 들으며 독서를 대신해 왔다. 그러나 그는 한정된 오디오북 종류 때문에 불편함을 느꼈고, 신티아의 자체 TTS 기술을 활용해 직접 오디오북을 만들어봤다. 그러나 만든 오디오북은 사람이 낭송한 오디오북과 달리 어색함이 느껴졌다. 단순한 음성 변환으로 만들어져 강약 조절, 속도 조절 등이 적용되지 않았기 때문이다.
이에 오진환 대표는 신티아의 TTS 기능에 AI 기술을 더해 책 내레이션에 특화되도록 고도화하고, 나아가 오디오북을 자동으로 제작하는 서비스를 출시하기로 결심했다. 그는 2020년 11월 법인을 설립, 본격적으로 지난해 여름부터 시장에 진입했다. 오진환 대표는 “해외에 비해 한국은 시장은 오디오북 시장 자체가 아직 활성화되지 않은 편이나, 오디오북도 콘텐츠를 소비하는 새로운 방식으로 그 수요가 늘고 있다”고 말했다.
내레이션에 특화된 자체 AI 음성 기술
신티아의 AI 음성 기술은 오디오북 제작 시간을 기존보다 대폭 줄여준다. 기존에는 성우가 300페이지 책을 오디오북으로 제작하는 데 1달이 소요됐던 반면, 신티아의 AI는 동일 분량의 이펍(Epub, 전자책 파일 포맷) 파일을 10분만에 읽고, 8-10시간 분량의 오디오북으로 만들어 MP3 파일로 제공한다.
신티아가 제공하는 오디오북에는 기본 형식인 ‘싱글 내레이션’과 ‘멀티 캐스팅’ 두 가지 버전이 있다. 멀티 캐스팅은 마치 오디오 드라마처럼 소설 등 장르에서 다양한 등장인물의 목소리를 구분해 읽어주는 방식이다. 더불어 신티아는 책 한 권을 여러 목소리 버전으로 만들어 줄 수 있다. 오진환 대표는 “사람마다 몰입도를 높여줄 수 있는 목소리가 있다. 현재 모든 오디오북은 높은 가격 때문에 하나의 목소리 버전으로 제작되지만, 신티아는 여러 목소리 버전으로 소비자 선택폭을 넓혀준다”고 덧붙였다.
신티아의 LLM은 책을 빠르게 읽고, 본문의 등장인물을 분석해 적합한 목소리를 찾는다. 단순한 TTS는 띄어쓰기 실수가 있어도 무시하지만, LLM은 사람처럼 문법 문제를 파악하며 읽을 수 있다. LLM은 음성 엔진에게 숨소리 조절, 강약 조절, 속도 조절, 감정 표현 등 문장 읽는 법을 지시한다. 이 LLM은 모듈화돼 개별적으로 기능을 훈련할 수 있다. 책 본문에 외국어 단어 및 문장이 있어도 19개 언어 모듈 덕분에 해당 언어를 인지해 자연스럽게 소리 낸다.
다음으로 AI 음성 엔진이 목소리를 합성해 캐스팅(어울리는 목소리를 매칭하는 것)을 완료한다. 이때 사용자는 음성 복제 기술을 통해 AI, 성우, 또는 본인의 목소리를 사용할 수 있다. 예컨대, 영국식 발음을 못 하는 사용자가 영국식 발음 내레이션에 사용자 목소리를 입히면 영국식 발음을 하는 자신의 목소리를 들을 수 있다. 덕분에 고유 명사의 경우, 작가는 의도에 맞게 단어를 소리내도록 설정할 수 있다.
오디오북은 자동으로 제작되지만, 사용자가 검토 및 수정할 수 있다. 오진환 대표는 “가장 중요한 것은 자동화다. 현재는 100% 자동화가 아니지만 파일 업로드 및 변환하는 과정이 자동 제작”이라며, “멀티 캐스팅 영역 등에서 아직 개발 훈련이 필요하나, 점차 학습 데이터가 쌓이며 목소리 구분이 정확해지고 향후 자동화가 가능해질 것”이라고 말했다.
식사 한 끼 값으로 오디오북 제작한다
오진환 대표는 오디오북 제작의 가장 큰 걸림돌인 제작 비용을 낮췄다는 점을 강조한다. 그는 “미국에서는 1년에 책 약 400만 권이 출판되면 이중에서 상위권에 있는 약 2%인 8만 권만 오디오북으로 만들어진다. 그 이유는 300페이지 책을 오디오북으로 제작하는 데 수백만 원이 드는 구조 때문”이라고 설명했다. 그러면서 “오디오북으로 아직 만들어지지 않은 나머지 98% 책들을 대량생산처럼 저렴한 가격에 오디오북으로 만들겠다”고 말했다.
신티아는 오디오북 제작 완료 후, 결과물 재생 시간을 차감하는 방식으로 시간당 9.9달러(약 1만 4000원)를 과금한다. 10시간이면 99달러(약 14만원)인데, 여기에 개인이 1년권을 구독할 경우 약 20달러(약 2만 8000원)에 10시간을 제공한다. 즉, 식사 한 끼 값으로 오디오북을 만들 수 있다는 설명이다. 싱글 내레이션 가격과 멀티 캐스팅 가격은 동일하다.
화이트 라벨 전략 B2B·개인 작가 대상 B2C 노린다
오진환 대표는 시장 본격 진출 후, 유럽과 미국 시장을 중심으로 고객군을 넓혀가는 중이다. 지난 10월 독일 프랑크푸르트 도서전에서 해외 오디오북 플랫폼 기업을 만나 협력을 논의한 데 이어 국내에서도 대형 출판사와 계약을 체결했다.
신티아는 언어별·국가별 오디오북 서비스 기업과 협력해 오디오북 제작 시장 점유율을 높일 계획이다. 오진환 대표는 “단기간에 많은 책이 신티아를 통해 오디오북으로 제작되는 과정에서 시장 점유율 확보가 중요하다”며, “국가별 유명한 파트너사에서 신티아의 기술이 사용되도록 ‘화이트 라벨(White Label)’ 전략으로 접근하고 있다”고 설명했다.
또한 신티아는 출판사를 필요로 하지 않는 미국 개인 작가와 중소형 출판사 등 B2C 시장으로의 기회도 엿본다. 장기적으로는 제작 외 플랫폼으로 진화한다는 목표다. 오진환 대표는 “현재는 개인 작가가 오디오북을 만들어 다른 플랫폼에 가져가 거래한다. 이러한 번거로움을 해소하기 위해 신티아는 오디오북 플랫폼과 연계해 직접 오디오북을 제공할 예정이다. 나아가, 향후에는 작가가 신티아에서 제작한 오디오북을 직접 판매하는 플랫폼으로 진화할 것이라 기대한다”고 말했다.
이어 그는 “대형 플랫폼은 작가의 콘텐츠를 독점하는 수익 구조를 유지하는데, 이때 작가가 콘텐츠에 주도권을 가지면 협상력을 가질 수 있다. 신티아는 오디오북 제작 서비스를 함께 제공하면서 작가에게 수익 비율을 많이 줄 수 있다”며, “오디오북은 사업의 본질이 콘텐츠다. 작가들이 더 많은 수익을 가져가게끔 하여 출판 시장의 건강한 생태계를 만들어 나가는 것이 목표”라고 덧붙였다.
IT동아 김예지 기자 (yj@itdonga.com)