애플 iOS5 시리(Siri) 발표 - 음성인식기술의 가능성을 보다
“시리, 이 근처에 유명한 한식당이 있어?”
“예, 검색결과 4개의 음식점을 찾았습니다.”
상사와 비서의 대화가 아니다. 아이폰 사용자가 가상비서 ‘시리 어시스턴트(Siri Assistant, 이하 시리)’를 사용하는 모습이다. 시리는 아이폰4S에 추가된 기본 내장 어플리케이션으로, 음성을 이해하고 음성으로 답변해주는 차세대 음성인식 엔진이다. 애플은 4일(북미 기준) 아이폰4S 발표행사에서 시리를 아이폰4S의 핵심기능 중 하나로 비중있게 다루었다.
시리, 아이폰 사용자의 가상 개인비서
시리는 인공지능을 강화한 진보된 음성인식 엔진이다. 기존 음성인식기술은 데이터에 저장된 일부 단어나 문장만을 인식했을 뿐, 문장의 의미를 파악하지는 못했다. 예를 들어 기존 음성인식기술은 사용자가 “내일 날씨는 어때?”라고 말한다면, 데이터에 저장된 ‘내일’과 ‘날씨’라는 단어를 조합해 답변을 내놓았지만, 같은 의미인 “내일 우산을 가져가는 게 좋을까?”라는 말에는 엉뚱한 답변을 하기 일쑤다. 또한, (단어나 문장) 데이터 저장용량의 한계 때문에 음성 인식률 자체가 낮아 사용자의 불만이 많았다. 이 때문에 전화번호 안내서비스 등 극히 일부 분야에서 사용되는 것이 고작이었다.
하지만 네트워크 기술이 발달하고 방대한 음성 데이터를 처리할 수 있게 되면서 이제는 음성인식기술이 다양한 영역으로 확대되기 시작했다. 특히, 스마트폰 환경에서 각광을 받고 있다. 대표적으로 구글의 음성검색 어플 ‘보이스액션’이 있다. 보이스액션은 2,300억 개의 단어를 음성 데이터로 저장해 단어 및 문장 인식률을 95%까지 끌어올렸다. 안드로이드 사용자들은 전화, 메시지, 메일, 일정관리, 지도검색, 메모 등 다양한 분야에서 보이스액션을 활용할 수 있다. 구글은 지난 2010년 8월 보이스액션을 출시하면서 스마트폰 음성인식 분야에서 선점효과를 누렸다.
출시 시기로만 보면 시리의 등장은 그리 신선하지도, 파격적이지도 않아 보인다. 보이스액션과 같은 음성인식기술이 스마트폰에 탑재된 지 어느새 1년이라는 시간이 흘렀다. 하지만, 스마트폰 사용자들은 이러한 음성인식기술을 제대로 사용하지 않는다. 음성인식기술 자체가 스마트폰에 탑재되었다는 아예 모르기도 하거니와, 알고 있는 소수의 사용자도 제대로 인식되지 않아 사용 자체를 하지 않았기 때문이다.
그렇다면 애플이 별볼일 없는 기술로 뒷북을 치고 있는 것일까? 그렇지 않다. 시리는 보이스액션보다 한 단계 더 나아가서 문장 속에 담긴 사용자의 의도까지 이해하고 답변하는 수준에 도달했다. 또한, 단순히 결과를 화면에 표시하는 것이 아니라 음성으로 답변하기도 한다. 때문에 사용자는 아이폰과 대화를 하는 것처럼 느끼게 되는 것. 사용자가 질문을 하면 아이폰이 질문의 뜻을 파악하고 그에 맞는 대답을 한다. 이것이 시리가 ‘가상 개인비서’라고 불리는 이유다.
사용법은 매우 간단해
시리 사용법은 매우 간단하다. 아이폰4S의 홈 버튼을 길게 누르면, 비프 음이 2번 울리면서 화면에 ‘무엇을 도와 드릴까요(What can I help you with)?’라는 메시지가 뜬다. 시리가 실행됐다는 신호다. 이제 단순히 말을 하기만 하면 된다. 화면의 마이크 아이콘에 불이 들어와 있다면 시리가 사용자의 말을 경청하고 있다는 뜻이다. 마이크 아이콘을 한 번 더 눌러 시리와 대화할 수도 있다. 만일 헤드폰이나 블루투스 헤드셋을 착용하고 있다면, 리모콘으로 명령을 내리면 된다. 마찬가지로 센터 버튼을 길게 누르고 있으면 시리가 실행된다.
기본적으로 시리는 사용자가 말을 다 마칠 때까지 기다렸다가 응답한다. 하지만 시끄러운 곳에서는 사용자가 계속해서 말을 하고 있다고 착각할 수 있으므로 마이크 아이콘을 직접 눌러서 ‘할 말 다 했다’라는 의미를 전달해줘야 한다.
사용자가 말을 마치고 나면, 시리는 그 말을 그대로 화면에 표시한다. 이 때 시리는 사용자에게 추가 정보를 요구하기도 한다. 예를 들어 사용자가 “엄마한테 전화하기로 한 것 잊지 않게 꼭 알려줘”라고 말했다면 시리는 “몇 시쯤 알려드릴까요?”라고 되물을 수도 있다.
시리는 사용할수록 점차 진화한다. 예를 들어 독특한 억양을 가진 사용자가 말을 한다면 시리는 이 정보를 ‘사투리’로 분류한 후 저장한다. 시리를 사용할수록 축적된 정보량은 더욱 많아지고, 그만큼 시리의 인식률이 올라가게 되는 것이다. 조금 과장해서 “잠시 실례합니다”, “내 좀 보이소”, “좀 봐유”를 언젠가는 같은 말로 인식할 수도 있다는 뜻이다. 물론 이렇게 저장된 시리의 정보는 설정 메뉴에서 언제든지 리셋이 가능하다.
활용도는 무궁무진
시리는 아이폰에 저장된 모든 기본 내장 어플과 연동이 된다. 길을 찾을 때는 지도 어플과 연동이 되며, 사람을 찾을 때는 연락처 어플과 연동이 된다. 예를 들어 “여동생에게 전화해”라고 말하면 시리는 여동생이 누군지 되묻는다. 사용자가 ‘김 아무개’라고 말하면 연락처에서 해당 인물의 정보를 찾아낸다. 이 정보는 시리에 자동 저장되므로, 다음 번부터는 여동생이라고만 말해도 자동으로 연결된다.
또 기본 프로필에 직장 및 집 주소를 입력해 놓으면 여러 모로 쓸모가 많다. 가령 “퇴근하고 집에 들어가기 전에 장 보기로 한 것 잊지마”라고 말했다면 ‘집’으로 등록한 장소에 근접한 순간 시리가 해당 메모를 알려준다.
물론 이 모든 기능은 기존 스마트폰에서도 (음성인식방식이 아니었을 뿐) 가능했던 것들이다. 하지만 기존에는 일일이 문자를 입력하거나 스마트폰 어플을 한참 뒤져야만 했다. 시리가 이 복잡한 과정을 음성으로 간단히 해결할 수 있도록 만들어준 것이다. 그렇다고 시리가 ‘있으면 좋지만 없어도 되는’ 어플은 아니다. 시리는 문자를 입력하기 힘든 상황, 예를 들면 운전 중이거나 두 손이 자유롭지 못할 때 등 여러 상황에서 빛을 발할 수 있다.
기존의 터치 입력 방식보다 음성으로 하는 직관적인 입력 방식이 IT기기 조작에 어려움을 겪는 시각장애인이나 노년층에게도 유용할 것으로 생각된다. 실제로 애플은 키노트 영상에서 시각장애인이 시리를 사용하는 모습을 보여주기도 했다.
시리, 아쉬운 점도 많다
(앞서 기사만 본다면) 마치 굉장히 좋은 것처럼 묘사했지만, 사실 시리는 미완성 단계다. 기존의 음성인식기술보다 나은 모습을 보여주고 있지만 데이터베이스에 없거나 난해한 질문에는 대답하지 못한다. 예를 들어, 영국 FTSE 100(영국의 FTSE그룹이 48개의 국가주식을 구분하여 발표하는 글로벌 주가지수)이나 나스닥 지수 등의 일반적인 질문에는 답을 했지만, 채권이나 금 가격, 그리스 재정위기 상황에 대한 전망 등 심도 있는 질문에는 답을 하지 못했다고 알려졌다.
영어 외에 다른 국가 언어는 어떻게 인식할지도 미지수다. 현재 시리는 영어, 프랑스어, 독일어만 지원하고 있다. 한국어, 일본어, 중국어 등 다른 국가의 언어 인식은 2012년부터 지원될 예정이다. 그리고 현재 아이폰4S에서만 구동된다는 점도 아쉽다. 애플이 시리를 통해 스마트폰 입력체계를 바꾸려고 마음먹고 있다면 기존 아이폰3Gs, 아이폰4, 아이패드 시리즈 등의 사용자들에 대한 지원도 소홀히 해서는 안될 것이다.
글 / IT동아 강일용(zero@itdonga.com)