[리뷰] 받아쓰기의 인공지능화 - 구글 트랜스크라이브
[IT동아]
후천적 청각장애(혹은 난청)로 인해 (말은 할 수 있지만) 제대로 듣지 못하는 이들은, 주로 종이에 직접 글로 써가며 단문 대화 위주로 소통한다. 번거롭고 불편하지만 이들이 일상에서 (글로 쓰는 것만큼) 간단히 소통할 수 있는 방법이 딱히 없기 때문이다.
구글이 최근 출시한 '라이브 트랜스크라이브'는 이처럼 청각장애나 난청으로 불편을 겪는 이들을 위한 유용하고 진정 기특한 앱이다. 기술이 존재하는(혹은 존재해야 하는) 결정적인 이유를 이 앱이 보여준다.
라이브 트랜스크라이브는 구글의 인공지능 음성인식 기술을 적용해, 사람의 대화 목소리를 자동 인식하여 이를 글자로 보여준다. 마치 뉴스에서 보던 외국어 실시간 통역 자막처럼, 대화자의 육성을 실시간으로 글자로 받아 적는다.
구글 플레이스토어에는 '실시간 자막'의 이름으로 등록돼 있고, 무료로 사용할 수 있다. 트랜스크라이브는 설치 후 별도의 설정은 필요 없고, 실행하면 곧바로 음성 인식 대기 모드가 된다.
<플레이스토어에서 무료로 내려받아 사용할 수 있다>
설정 항목이 있긴 한데, 여기서는 글자 크기, 배경 색상, 기본 언어(보조 언어 포함), 출력된 글자(스크립트) 저장 기간 등의 부가 설정을 할 수 있다.
참고로, 트랜스크라이브는 19년 6월 현재 전세계 인구 80% 이상이 사용하는 70개국 언어를 지원한다. 출력된 글자는 기본으로 3일간 스마트폰에 저장된다(저장 허용 시).
음성 인식 대기 상태에서 말을 하면 단어/문장을 인식해 그대로 글자로 출력해 보여준다. 시끄럽지 않은 환경에서 분명한 발음으로 말하면, 예상/기대보다 훨씬 정확하게 글자로 받아 적는다. 물론 사람의 육성, 발음, 억양 내지는 모호한 특정 단어 등에 따라 종종 오탈자나 다른 단어를 출력하긴 하지만, 쉼 없는 장문이 아닌 중단문 위주의 일상 대화문이라면 상당히 정확한 결과를 보여준다. 종이에 글로 성급히 써서 소통하는 것보다는 한결 간편하고 분명한 의사전달이 가능하리라 본다.
<유튜브 내 설민석 한국사 강사의 강의 영상 음성을 듣고 받아 쓴 결과>
이 정도의 음성 인식 정확도라면 대화/인터뷰 등을 글자로 적어야 하는(타이핑해야 하는) 일선 기자들에게도 적지 않은 도움이 된다. 스마트폰용 마이크를 연결하면 음성 인식 정확도를 더욱 높일 수 있다.
이 밖에 트랜스크라이브는 사람 육성 외 사물 소리도 부분적으로 인식해 이를 표시한다. 예를 들어, 실제 박수 소리가 입력되면 '박수소리'로, 고양이 '야옹' 소리는 '고양이 소리', 개가 짖으면 '개 소리'로, 자동차 경적소리라면 '자동차 경적' 등으로 표시된다. 신기할 정도로 잘 듣고 분석, 구분한다.
<사람의 육성 외에 사물 소리도 분석, 파악해 표시한다>
아무래도 아직까지는 한국어보다 영어 인식 정확도가 상대적으로 높은데, 언어를 'English'로 설정하고 CNN 뉴스나 BBC 뉴스를 들려주면, 놀랄 만큼 정확하고 빠른 속도로 영문 글자 자막을 착착 만들어 낸다. 출시 초기 버전이 이 정도의 정확도를 보인다면, 향후 시간이 지나면서 인공지능/머신러닝 기술로 인해 인식 정확도는 한층 더 향상되리라 기대한다.
구글은 트랜스크라이브를 개발하며 청각장애/난청 환자 분야의 최고 대학인 미국 갤러뎃(Gallaudet) 대학교(워싱던 D.C. 소재)와 협력했고, 청각장애우들의 사전 테스트를 통해 주요 피드백을 반영했다. 구글은 이후로도 트랜스크라이브의 품질을 지속 개선하려 다양한 피드백을 모으고 있다.
글 / IT동아 이문규 (munch@itdonga.com)