IT DONGA

[스마트폰 활용하기] 음성인식 비서를 호출하기 위한 조건은?

남시현

애플 시리(좌)와 삼성 빅스비(우) 실행 화면

[IT동아 남시현 기자] 음성인식 비서 서비스란, 음성 인식과 음성 이해, 음성 합성 기술과 인공지능 발전이 빚어낸 기술이다. 음성인식 비서에게 음성으로 명령을 전달하고, 대화를 나누면서 기능을 수행하는 것이다. 사람마다 발음 차이나 문장력에 차이가 있다보니, 여전히 수준 높은 명령을 수행하지는 못하지만, 특정 사람에게 전화를 걸거나 알람을 켜고 끄는 등의 간단한 기능은 충분히 해낸다.

현재 국내에서 이용할 수 있는 음성인식 서비스는 애플 스마트폰과 노트북에 탑재되는 시리(Siri)와 안드로이드 및 아이폰 모두 사용할 수 있는 구글 어시스턴트, 삼성 갤럭시 시리즈에 탑재되는 빅스비(Bixby)가 대표적이고, 영어권에서는 윈도우 10에 탑재되는 코타나(Cotana)나 아마존 알렉사(Alexa)같은 서비스가 널리 쓰이고 있다.

개인 목소리 패턴을 이해하기 위해 몇 가지 문장을 입력한다.

최근에는 스마트폰을 제어를 넘어, 사물인터넷 기기 제어나 온라인 주문으로 그 영역을 확대하며 사용 범위도 점차 넓어지고 있는 상황이다. 현재 아이폰을 사용하고 있다면 '시리야' 라는 문장을 저장해 시리를 바로 호출하면 되며, 구글 어시스턴트는 '오케이 구글'이나 '하이 구글', 삼성 빅스비는 '하이 빅스비'라고 외치면 서비스가 실행된다. 하지만 스마트폰이 명령어 자체를 듣지 못한다면 어떻게 해야 할까?

애플 시리의 음성인식 서비스는?

애플 시리는 iOS5, 아이폰 4S 이상 스마트폰부터 쓸 수 있다.

애플 시리는 애플 iOS 5 이상, 아이폰 4S부터 지원하는 서비스다. 서비스를 시작한 지 9년 이상 지나, 음성인식의 정확도와 명령 인식률이 매우 높다. 또한 수준급의 자연어 처리를 통해 문맥을 이해한 결과를 제안하기도 한다. 애플 스마트폰 사용자들은 '시리야'를 활용해 통화와 문자메시지, 일정 확인이나 알림 설정 같은 일상 업무, 음악 재생 및 멈춤 같은 간단한 기능을 음성으로 활용할 수 있다.

하지만 음성인식 서비스를 시작하기 위해서는 특정 명령어가 스마트폰 마이크에 전달돼야 한다. 마이크 옆 스피커에서 음악이 재생되고 있다면 시리를 호출하기 어렵다. 스피커폰으로 음악이 재생되고 있다면 잠깐 조용한 타이밍에 맞춰 시리를 호출하고, 처음부터 끝까지 시끄러운 음악이라면 노래를 꺼야 호출할 수 있다. 성공적으로 호출되면 잠깐 음악이 정지되며 명령어를 입력할 수 있다.

안드로이드 스마트폰의 음성 인식은?

음악 재생 중 구글 어시스턴트 호출 인식률은 다소 떨어지는 편.

구글 어시스턴트 역시 마찬가지다. 헤이 구글 혹은 오케이 구글로 호출하지만, 주변 환경이 시끄러운 경우 호출이 거의 통하지 않는다. 하드웨어에 따라 다르겠지만, 체감상 애플 아이폰보다 인식 성공률이 떨어진다는 느낌이다. 물론 조용한 음악이나 주변 소음이 조금 있는 상황이라면 무리없이 어시스턴트가 실행되고, 스피커로 음악이 재생되고 있거나 주변이 시끄럽다면 호출이 어렵다.

이럴 경우, 홈버튼 조작을 통해 구글 어시스턴트를 빠르게 불러오거나, 음악 소리보다 훨씬 큰 소리로 오케이 구글을 외치면 된다.

삼성 빅스비 역시 음악 재생 중에는 호출이 어렵다. 이럴 땐 물리 버튼을 이용하자.

삼성 빅스비도 구글 어시스턴트와 비슷한 인식률을 보인다. 주변 환경이 시끄럽다면 빅스비 호출이 힘들다. 다만 애플 시리는 아이폰 11 프로 맥스로 테스트했고, 구글 어시스턴트 및 삼성 빅스비는 2017년 출시된 갤럭시 S8을 활용했기 때문에 최신 기종은 인식률이 더 높을 수 있다.

하지만 삼성 빅스비는 애플 시리, 구글 어시스턴트와 다르게 빅스비를 호출하는 물리 버튼이 있다. 만약 음성으로 빅스비 호출을 할 수 없는 상황이라면, 좌측면 아래 빅스비 버튼이나, 전원 버튼을 빅스비 버튼으로 할당해 호출하면 된다.

음성인식을 위한 간단한 조건

모든 음성인식 기능은 조용한 환경일수록 인식률이 높다. 마이크 옆에서 울리는 스피커 음악 소리는 상극이다.

음성인식 서비스를 이용하기 위한 전제 조건은 주변 환경이 조용해야한다는 점이다. 주행 중 차량 정도까지는 무난하게 이용할 수 있으며, 운행 중인 지하철 내부정도부터 인식률이 떨어진다. 만약 스마트폰이 시리야, 오케이 구글, 하이 빅스비라는 문구를 인식하지 못할 만큼 주변이 시끄럽다면, 호출에 성공해도 명령을 제대로 인식하지 못할 가능성이 크다.

특히 스마트폰 마이크 바로 옆에서 재생되는 스피커 소리는 음성인식 비서를 호출하기 어려운 조건이다. 운전이나 요리처럼 두 손을 쓸 수 없어 음성인식 서비스를 계속 활용해야 하는 상황과는 상극인 셈. 이때는 원활한 명령어 입력을 위해 음악 재생을 잠깐 미루거나, 음악을 재생하고 음성인식 기능을 쓰지 않을지 결정하고 활용하는 게 좋다.

글 / IT동아 남시현 (sh@itdonga.com)

이전 다음