IT DONGA

터치에서 목소리로... 이제는 '음성 전쟁'?

나진희

"영화 좀 추천해줘"

이 한마디의 처리가 스마트폰에서 얼마나 많은 단계를 함축하는가. 검색 애플리케이션을 켠다 → '추천 영화'를 검색한다 → 원하는 웹 페이지를 누른다. 무려 3가지 귀찮은 과정이 말 한마디에 끝난다. 음성 명령 기능이 발전하면 사용자는 말 그대로 손가락 하나 '까딱'하지 않을 수 있다. 잘만 되면 이보다 편리한 것이 어디 또 있으랴.

하지만 그동안의 음성 인식 기술은 정체된 느낌이 강했다. 스마트폰, 태블릿PC, 내비게이션, 자동차, TV 등 수많은 디지털 기기에 음성 인식 기능이 들어갔지만, 그 활용도는 적었다. 음성 인식 기술이 정교하지 못해 사용자의 말을 잘못 알아듣는 경우가 많았기 때문. 음성 명령으로 엉뚱한 기능이 작동할 때가 많아 오히려 버튼 하나 누르는 게 더 정확하곤 했다. 사용자들이 음성 명령 기능을 대하는 방식은 거의 다음과 같다.

처음 제품을 구매했을 때 호기심에 음성 명령 기능을 몇 번 사용해 본다. 주로 친구에게 이런 기능도 있다고 보여주거나, 우스운 질문을 할 때 쓴다. 그러다 음성 명령 기능이 있다는 것을 까맣게 잊는다. 얼마 후 음성 명령 기능은 어쩌다 버튼을 잘못 눌렀을 때 실행되는 '귀찮은' 기능이 되어버린다.

제조사 입장에서도 음성 명령 기능은 대부분 '구색 맞추기'용이다. 자사 제품이 '스마트'하다는 것을 강조하기 위해 넣는 장식품 같은 것이다. 모든 사람의 목소리, 발음 등이 제각각이라 음성 인식 기술을 고도화하는 것이 아무래도 쉽지 않다. 음성 인식 기술은 장기적인 투자와 개발이 필요하다. 지금의 기술 수준은 아직 설익었다.

음성 명령의 재조명

이대로 음성 명령 기능은 정체되는 걸까? 다행히 그런 걱정은 안 해도 될 것 같다. 여러 기업이 음성 명령 기능을 본격적으로 개발할 행보를 보이고 있다.

시리

애플은 이번 iOS7부터 시리(Siri)의 '베타' 딱지를 뗀다. 지난 2011년 아이폰4S에 탑재된 이후 약 2년 만이다. 애플은 음성 명령 서비스 시리의 능력을 대대적으로 업그레이드했다. 음성 인식 수준이 향상되었고 목소리도 다양해졌다. 검색 서버가 안정화되었으며, 양질의 답변을 내놓는다. 그간의 기능이 '웹 검색'에 치우쳐져 있었다면 거기에 더해 휴대폰 기능도 자유자재로 껐다 켤 수 있다. 시리가 아이폰 구매 시 고려할만한 매력적인 요인이 된 것. 정식으로 공개되어야 확실해지겠지만, 지금까지의 평가론 그간의 혹평을 벗어나리라 보인다.

코타나

음성 명령 분야에 공을 들이는 기업은 애플뿐만이 아니다. 마이크로소프트(이하 MS)는 지난 2011년 이전부터 코드명 '코타나(Cortana)' 서비스를 준비해왔다. 코타나는 음성 인식 기술을 기반으로 한 인공지능 서비스로, MS는 코타나를 자사 콘솔 게임 '헤일로'에 등장하는 가상 비서 캐릭터의 이름에서 따왔다. 해외 매체들은 MS가 코타나를 윈도8.1, 윈도폰, XBOX 등에 탑재하리라 추측했다.

인디시스

지난 13일(현지 시각), 인텔은 자연어 인식 기술 업체 인디시스(Indisys)를 인수한 사실을 공개했다. 소문에 의하면 인텔은 음성 명령 기능뿐 아니라 제스처 인식까지 더한 형태의 차세대 인터페이스 시스템을 선보일 예정이다. 업계 전문가들은 인텔이 오는 2014년에 제스처 인식 카메라를 탑재한 노트북을 내놓으리라 내다봤다. 인텔은 이를 '지각 컴퓨팅(perceptual computing)'이라 부른다.

구글

구글은 지난 I/O 2013에서 음성 검색 서비스를 발표했다. 구글 크롬이나 애플리케이션에서 음성으로 검색할 수 있는 기능이다. 그 후 약 4개월 후인 지난 15일, 구글은 음성 인식 서비스를 업그레이드했다. '대명사'를 인식하는 iOS용 크롬29를 공개한 것. 예를 들어 "미국 대통령이 누구야?"라고 질문한 후 "그의 부인이 누구야?"라고 또 다시 물으면, 버락 오바마 대통령의 부인을 찾아준다. 구글 음성 인식 기술은 단편적인 검색을 벗어나 이전의 검색 데이터를 유기적으로 활용하는 모습으로 발전했다.

웨어러블PC

여러 기업의 음성 명령 기술 개발은 스마트 시계, 스마트 안경 등 웨어러블PC(입는 PC)의 등장과 밀접한 관련이 있다. 웨어러블PC는 입고 써야 하므로 간결한 디자인이 생명이다. 웨어러블PC는 가볍고 크기가 적당해야 해 커다란 터치 스크린과 많은 버튼을 달기 어렵다. 따라서 사용자의 입력 방식이 제한적일 수밖에 없다. 스마트 시계는 그나마 화면 터치가 쉬운 편이다. 만약 '구글 글라스' 등을 터치했다간 그 행동도 우스꽝스러울뿐더러 지문 때문에 앞을 보기 어려울 것이다. 따라서 구글 글라스는 기능 대부분을 음성 명령과 제스처로 구동한다. 이러한 사정을 봤을 때, 음성 명령 기술에서 주도권을 잡는 기업이 웨어러블PC에서 유리한 위치를 선점한다고 해도 과언이 아니다. '말 잘 듣는 제품'을 만들어 사용자를 더 게으르게 만들어줄 기업은 과연 누구일까?

글 / IT동아 나진희(najin@itdonga.com)

이전 다음