[리뷰] 인터뷰·회의 내용을 빠르고 정확하게 텍스트로 변환한다... AI속기사 '클로바노트'

정연호 hoho@itdonga.com

[IT동아 정연호 기자] 다른 사람이 말하는 내용을 속기하는 건 어려운 일이다. 수업이나 회의, 인터뷰에서 들려오는 말을 다 적다 보면 내용을 놓치는 일이 부지기수다. 또한, 기록에만 집중하게 되면 내용 자체에 집중하지 못하게 된다. 그래서, 수업이나 인터뷰에 편하게 참여하기 위해, 대화 내용을 녹음하고 이후로 음성파일을 들어서 이를 텍스트로 옮겨 적는 사람이 많다.

문제는 녹음파일을 텍스트로 옮기는 작업에 드는 시간이다. 1시간 분량의 녹음파일이라면 모든 문장을 다 일일이 적고서 내용을 보기 좋게 정리하는 데만 2~3 시간 정도 걸린다. 생각보다 많은 시간을 내용 정리에만 써야 하는 것이다.

평소 이런 문제를 겪고 있었다면 STT(Speech to text) 서비스를 활용하는 것도 좋은 방법이다. STT는 컴퓨터가 사람의 언어를 해석해 이를 문자로 변환하는 기술을 말한다. 최근 STT 기술은 화자의 발음이 많이 어눌하거나, 단어 자체의 발음이 어려운 경우가 아니라면 오타를 거의 내지 않는 수준으로 기술이 발전했다. 한국어로 진행된 대화라면 오타는 드물게 발견된다.

AI를 활용한 STT 서비스 클로바노트, 출처=네이버
AI를 활용한 STT 서비스 클로바노트, 출처=네이버

대표적인 STT 서비스엔 네이버의 클로바노트가 있다. 네이버 계정만 있으면 누구나 무료로 이용할 수 있다. 클로바노트 웹이나 앱에서 음성파일을 등록하고, 대화에 참여한 사람의 수와 해당 대화의 성격(인터뷰, 강연 등)을 설정하면 텍스트화가 가능하다.

클로바노트를 쓰기 전엔 STT 기술을 활용할 생각을 한 적이 없었다. 음성 인식도가 떨어질 것이란 편견 때문이었다. STT의 결과물에 오탈자가 많거나 대화 내용이 제대로 적혀 있지 않다면 이를 교정하는 데 들어가는 시간으로 인해 배보다 배꼽이 더 커질 것 같았다.

클로바노트에 웹페이지에서 서비스를 이용하는 방법. 대화 내용에 영어가 조금 들어간다면 인식 언어를 '한국어와 영어'로 같이 설정해야 음성 인식 정확도가 올라간다
클로바노트에 웹페이지에서 서비스를 이용하는 방법. 대화 내용에 영어가 조금 들어간다면 인식 언어를 '한국어와 영어'로 같이 설정해야 음성 인식 정확도가 올라간다

클로바노트 결과물을 보면 음성 인식도는 완벽하진 않지만, 훌륭하다는 평가를 받을 만하다. 회의나 인터뷰 내용을 정리할 때 큰 도움을 받을 수 있을 것이다. 오타가 적어 교정 등의 후처리 작업도 금방 끝낼 수 있어 만족스럽다. 상대방 목소리를 스마트폰 마이크와 가까운 거리에서 녹음하는 인터뷰나 전화 통화는 오탈자가 정말 드물게 발견된다. 키보드로 직접 내용을 적는 것보다 정확도가 높다.

오탈자가 나더라도 ‘면도기’를 ‘면독’로 작성한 것처럼 특정 단어에 오타가 발생하는 정도다. 이런 경우라면 앞뒤 문맥으로 무슨 단어인지 유추가 가능해, 해당 부분의 음성을 듣고서 내용을 확인할 필요가 없다. 강의나 콘퍼런스처럼 스피커를 통해서 전달되는 내용을 녹음한 파일도 음성 인식도가 훌륭하다. 화자의 목소리가 소음과 같이 녹음됐다면, 소음이 너무 심하지 않은 경우엔 문장이 정확하게 인식된다. 다만, 선풍기 소리처럼 너무 큰 소음이 잡혀 있다면 목소리 인식이 안 되는 상황도 있으니 주의가 필요하다.

talk라고 발음한 부분이 chuck으로 기록됐다. 영어의 경우 오탈자가 한국어보단 많이 나타난다
talk라고 발음한 부분이 chuck으로 기록됐다. 영어의 경우 오탈자가 한국어보단 많이 나타난다

영어의 경우엔 인식도가 떨어진다는 점을 감안해야 한다. 영어 문장은 전체 문장에서 단어들이 잘못 적히는 일이 종종 발생한다. 다만, 다른 국내 STT서비스와 비교했을 때 클로바노트의 영어의 인식도는 높은 편으로 보인다.

시간과 말하는 화자에 따라서 음성 내용이 깔끔하게 정리된다
시간과 말하는 화자에 따라서 음성 내용이 깔끔하게 정리된다

클로바노트가 인상적이었던 점은 내용을 타임라인과 화자에 따라 정리해준다는 것이다. 해당 문장을 누르면 그 부분의 음성이 재생된다. 문맥상 무슨 단어를 쓴 건지 유추하기 어려울 때 이 기능으로 음성을 듣고 원래 단어나 문장을 확인할 수 있다. 음성을 텍스트화하는 속도도 빠른 편이다. 1시간 이상의 음성 파일을 텍스트로 변환하는 데 1분도 채 걸리지 않았다.

변환된 텍스트를 복사하는 방법
변환된 텍스트를 복사하는 방법

전체 내용을 복사하려면 오른쪽 옆에 세로로 된 점 세 개를 누르면 된다. 음성 기록 다운로드를 누르면 워드, 한글, 텍스트, 엑셀 등 문서 형식에 맞춰서 전체 기록을 다운받을 수 있다. 일부 내용만 복사하려면 문장 위에 마우스 커서를 놓고, 오른 쪽 위에 나타난 세 개의 점을 누르면 ‘텍스트복사’를 할 수 있다.

텍스트로 변환된 내용을 워드 문서로 다운받아봤다
텍스트로 변환된 내용을 워드 문서로 다운받아봤다

클로바노트는 현재 베타 서비스 동안 모든 이용자에게 매달 300분의 무료 사용 시간을 제공하고 있다. 앱에서 녹음 파일을 변환하면 시간 제한 없이 무료로 이용이 가능하다. 인터뷰를 많이 하는 특성상 무료 시간만으로는 부족할 때가 있어서 기자의 경우엔 웹과 앱을 함께 이용하고 있다. 유료로 서비스를 이용하고 싶어도 현재는 유료 서비스를 제공하지 않고 무료 사용 시간만 제공하고 있다. 네이버 측은 “베타테스트 이후로 유료화 도입과 관련해선 아직 결정된 게 없다”라고 전했다.

클로바노트를 비롯해서 현재 무료로 이용할 수 있는 다양한 STT 서비스들이 있다. 구글의 ‘음성 자막 및 변환 알림’이나 카카오의 ‘헤이카카오’ 등 편리한 서비스들이 많이 있고, 음성 인식도도 클로바노트에 견줄 만하다.

실제로 여러 서비스를 이용해보니, 가장 중요하게 느껴진 건 서비스를 편리하게 이용할 수 있도록 하는 편의 기능이었다. 이용을 하면서 편리함이 체감됐던 건 타임라인과 화자에 맞게 내용을 정리하는 클로바노트였다. 여러 명이 대화에 참여했다면 누가 무슨 말을 했는지 구별을 하는 것도 속기 과정에서 중요하기 때문이다. 화자에 따라 대화 내용이 정리가 안 되면, 누가 말한 내용인지 확인하기 위해서 음성 파일을 듣고 목소리를 일일이 구별해야 한다.

클로바노트 결과물을 보면 누가 말을 했는지도 상당히 잘 구별돼서 정리가 돼 있다. 텍스트를 누르면 음성이 나온다는 것도 오타를 수정하는 데 큰 도움이 됐다. STT서비스는 음성 내용을 텍스트로 변환할 일이 많은 사람에게 큰 도움이 될 것이다. 무료로 제공되는 서비스이니 이 기회에 한번 STT 서비스들을 체험해봐도 좋을 듯하다.

글 / IT동아 정연호 (hoho@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.