통화 내용, 문자로 정리해주는 AI 앱 '비토' 이용해보니

권택경 tk@itdonga.com

[IT동아 권택경 기자] 기자는 업무 때문에 통화 내용을 수시로 메모해야 하는 일이 많다. 물론 손이 못 따라가는 일도 흔하다. 그래서 요즘은 아예 스마트폰 통화 녹음 기능을 활용하는 경우가 대부분이다.

기자 말고도 전화 통화로 중요한 업무를 처리하는 사람들은 대부분 통화 녹음을 널리 활용하고 있다. 내용을 놓치거나 잊어버려도 언제든지 다시 들을 수 있으니 안심이다. 하지만 메모와 달리 눈으로 볼 수가 없으니 필요한 부분을 빠르게 확인하기는 어다. 이럴 때 도움이 되는 게 인공지능을 활용해 음성을 문자로 변환해주는 STT(Speech To Text) 기반 서비스들이다.

'비토'는 인공지능을 활용해 통화 내용을 문자로 정리해 보여준다. 출처=리턴제로
'비토'는 인공지능을 활용해 통화 내용을 문자로 정리해 보여준다. 출처=리턴제로

‘눈으로 보는 통화’를 표방하는 비토(VITO)는 녹음된 통화 내용을 글로 정리해 보여주는 앱이다. 마치 채팅이나 문자 메시지를 보듯 화자를 말풍선으로 구분해놓은 게 특징이다. 긴 음성 파일을 다시 들을 필요 없이 원하는 구간, 내용을 바로 확인할 수 있다.

사용법은 간단하다. 스마트폰에 비토를 설치한 후 간단한 회원가입만 하면 바로 사용할 수 있다. 앱이 요구하는 접근 권한 요청을 허용하는 것 외 별다른 설정은 필요 없다. 스마트폰 기본 통화 앱에 자동 녹음이 설정되어 있다면, 비토 앱에서 녹음된 파일을 자동으로 인식해서 문자로 변환해준다. 다만 처리되는 시간 동안 잠시 기다려야 한다. 통화 길이에 따라 다르겠지만 1분 내외 짧은 통화는 수십 초 정도면 충분했다.

녹음된 통화 내용은 자동으로 문자 변환된다
녹음된 통화 내용은 자동으로 문자 변환된다

정확도는 어떨까. 첫 사용 시에는 아직 이용자 음성 데이터가 부족한 탓인지 정확도가 다소 떨어지는 모습을 보였다. 이용자 말과 상대방 말의 말풍선이 반대로 기록되기도 했다. 다만 어느 정도 사용 후에는 점점 인공지능이 학습하면서 개선되는 모습을 보였다. 토씨 하나 틀리지 않는 수준은 물론 아니지만 통화 내용을 복기하는 용도로 활용하기에는 충분한 수준이다. 내용이 이상하다 싶을 때는 말풍선을 눌러 해당 부분 음성을 확인할 수 있다. 직접 내용을 편집해서 바로잡을 수도 있다.

당연한 말이겠지만 정확도는 발음과 발성이 또렷할수록 올라간다. 사투리 화자의 음성 인식률은 아직 좀 아쉬운 듯한 모습이었다. 이외에도 두 사람이 동시에 말하는 상황에선 화자 구분이 잘 안되거나 외래어, 고유명사 등 일상적으로 흔히 쓰지 않는 단어는 잘 인식하지 못하는 현상도 있었다. 다만 기자가 경험해본 바로는 이는 비토만의 한계라기보다는 대부분의 STT 서비스들이 지니고 있는 한계라고 할 수 있다.

문자나 채팅을 주고받은 것처럼 말풍선으로 정리해 보여준다
문자나 채팅을 주고받은 것처럼 말풍선으로 정리해 보여준다

비토를 운영하는 리턴제로 측은 “비토는 회의, 강의 등 상황에서 발생하는 오디오와 달리, 정제되지 않은 자유로운 대화가 오가는 통화 오디오에 특화된 모델”이라며 “여타 서비스와 달리 자유 발화 문자 변환에서는 가장 성능이 좋다”고 강조했다.

통화 녹음에 특화된 서비스인만큼 관련된 편의 기능도 제공한다. 대표적으로 AI 교정 기능을 들 수 있다. 감탄사나 추임새, 중복해서 말한 단어나 구절은 알아서 제거해준다. 비속어를 제거하는 기능도 있다. 해당 기능은 켜고 끄는 필터 형태라서 혹시나 원본을 확인하고 싶다면 설정에서 끌 수도 있다. 다른 STT 서비스와 달리 통화 녹음 파일을 별도로 등록하는 과정이 필요 없다는 점도 장점이다.

AI 교정 기능을 활용하면 불필요한 감탄사, 추임새, 비속어를 제외할 수 있다
AI 교정 기능을 활용하면 불필요한 감탄사, 추임새, 비속어를 제외할 수 있다

이외에도 중요한 부분에 북마크를 설정해두는 기능, 대화 내용을 다른 사람과 공유하는 기능도 제공한다. 공유 기능은 보안이 중요한 만큼 링크와 비밀번호가 있는 이용자만 볼 수 있게 돼 있고, 최소 7일에서 최대 90일까지 열람 기간을 설정할 수 있다.

비토 서비스 이용은 기본적으로 무료지만 좀 더 사용량이 많은 이용자를 위한 유료 멤버십도 있다. 유료 멤버십에 가입하면 통화 내용이 백업되는 클라우드 저장 공간을 기본 1GB에서 300GB로 늘려준다. 이외에도 문자 변환 처리 속도를 올려주는 이점도 제공한다. 가격은 1개월에 4900원, 12개월에 5만 3900원이다.

대화 내용을 공유할 수도 있다
대화 내용을 공유할 수도 있다

비토는 현재 안드로이드 스마트폰 모바일 앱과 PC에서 이용할 수 있다. PC 웹에서도 모바일 앱과 똑같이 통화 내용을 확인, 편집하거나 음성을 다시 들을 수 있다. 북마크, 공유 기능도 똑같이 제공한다.

수동으로 녹음 파일을 추가하는 기능은 제공하지 않는다. 자동으로 통화 녹음 파일을 인식해주기 때문에 굳이 필요가 없기 때문이겠지만 개인적으로는 아쉬운 부분으로 느껴졌다. 기종에 따라서는 통화 녹음 파일이 인식이 안 되는 경우도 종종 있었기 때문이다.

삼성전자나 LG전자에서 나온 국산 스마트폰에서는 전혀 문제가 없었지만, 샤오미 같은 일부 외국산 스마트폰이 문제였다. 이러한 외국산 스마트폰들은 관련 법안 문제로 통화 녹음 기능을 막아두거나, 상대방에게 녹음 여부를 알리는 수동 통화 녹음 기능만 제공한다. 샤오미 레드미10으로 테스트해본 결과, 수동 통화 녹음을 하더라도 녹음된 파일이 인식이 안 됐다.

이렇게 녹음 파일이 자동으로도 인식이 안 되더라도 수동으로 녹음 파일을 추가하는 기능이 있었다면 앱을 이용이라도 할 수 있었겠지만, 인식이 안 되니 이용 자체가 불가능했다. 또한 통화 녹음 외 다른 녹음 파일을 변환하는 용도로 활용하고 싶어도 활용할 수가 없다. 통화 녹음 자체가 불가능한 아이폰에서도 물론 비토를 이용할 수가 없다.

비토 PC 웹 버전. 수동으로 음성 파일을 추가하는 기능은 연내 출시 예정이라고 한다
비토 PC 웹 버전. 수동으로 음성 파일을 추가하는 기능은 연내 출시 예정이라고 한다

다행히 리턴제로 측에서도 이같은 한계를 인식하고 있는지 연내 수동으로 녹음 파일을 추가하는 기능을 추가할 예정이라고 밝혔다. iOS 버전도 수동으로 녹음 파일을 추가하는 형태로 출시된다. 또한 운영체제 단위에서 통화 녹음을 제한하고 있는 경우를 제외하고는 지원 운영체제와 단말도 계속 확대할 예정이라고 밝혔다.

비토는 지난해 4월 정식 서비스 시작 후 출시 1년여 만인 올해 기준 4월 누적 다운로드 50만 돌파 건을 돌파하고, 누적 처리 통화 건수 1억 3000만 건을 돌파하는 등 주요 지표가 전년 대비 2배 이상 성장했다. 국내는 통화 녹음을 활용하는 사례가 워낙 많아 비토 또한 좋은 반응을 얻은 것으로 보인다. 그러나 최근 불거진 이른바 ‘통화녹음 금지법’ 논란에서도 알 수 있듯 통화 녹음은 나라에 따라서는 불법인 경우도 많으며, 국내에서도 언제든 다시 법적 논란에 휘말릴 수 있다는 점은 우려로 남는다.

이와 관련해 리턴제로 측은 “앞으로 비토도 통화 오디오 외 회의, 강의 등 다른 오디오로 AI 모델과 서비스 범위를 확장할 계획”이라며 “특히 활용되지 못하고 사라지는 오디오 파일 활용 가치를 높일 수 있는 B2B 시장을 눈여겨보고 있다”고 밝혔다.

글 / IT동아 권택경 (tk@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.