IT DONGA

뉘앙스 커뮤니케이션즈, "내 목소리로 나를 증명하는 시대가 온다"

안수영

[IT동아 안수영 기자] 지문인식을 이용한 사무실 출입관리 시스템, 모바일 지문인식 결제 서비스, 페이스북 얼굴인식 기술. 이처럼 바이오 정보를 보안 수단으로 활용하는 '바이오 인식' 기술은 점차 우리 생활 속으로 들어오고 있다.

바이오 인식이란, 타인이 모방할 수 없는 신체 정보를 식별 및 비교해 타인과 구분하고 인증하는 기술을 의미한다. 바이오 인식 기술은 크게 '신체기반' 유형과 '행동기반' 유형으로 나뉜다. 예를 들면 얼굴, 홍채, 지문, 손의 혈관 패턴 등 신체를 직접 활용해 개개인을 인식하는 것을 '신체기반 바이오 인식 기술'이라고 한다. 한편, 목소리(음성)나 서명(필기), 걸음걸이, 키보드 타이핑 리듬과 같이 신체 움직임(행동)을 통해 개개인을 식별하는 것을 '행동기반 바이오 인식 기술'이라고 한다.

여러 바이오 인식 기술 중에서도 신체기반과 행동기반의 두 가지 특성을 모두 포함하는 음성인식 기술이 활발히 연구되고 있다. 음성인식 기술이란 과연 무엇이고, 우리 생활에서 어떻게 활용될 수 있을까. 이에 대해 살펴보고자 뉘앙스 커뮤니케이션즈 코리아의 김명환 기술이사를 만나 이야기를 나눠봤다.

뉘앙스 커뮤니케이션즈 김명환 기술이사

Q. 뉘앙스 커뮤니케이션즈는 어떤 회사인가?

뉘앙스 커뮤니케이션즈는 음성인식 전문 글로벌 기업으로, 음성 관련 솔루션을 다양하게 보유하고 있다. 예를 들면, 음성을 텍스트로 변환하거나 텍스트를 음성으로 바꾸는 원천 기술을 보유하고 있다. 현재 글로벌 음성인식 시장(음성인식, 화자인증을 모두 포함)에서 약 70%의 점유율을 보이고 있다. 음성인식 및 화자인증 등 목소리 인식에 대한 기술력은 글로벌 1위 자리를 지키고 있다.

최근에는 IoT(Internet Of Things, 사물인터넷)의 활기로 많은 가정용 전자기기(Home Appliance)에 뉘앙스 솔루션이 도입되고 있다. 이제는 단순 음성 인식의 틀을 벗어나 전자기기 자체가 개인 비서의 역할을 하는 지능적인 로봇 형태의 패러다임으로 변화하고 있다. 이 외에도 가전제품에 오늘의 날씨 등을 물어보면, 해당 내용을 텍스트로 보여주거나 음성으로 알려주는 등의 부가서비스를 제공한다.

Q. 음성인식 기술은 크게 음성인식과 화자인식으로 나뉜다. 두 기술의 차이는 무엇인가?

음성인식은 어떤 사람이 이야기하든 상관없이, 불특정다수가 말한 '내용'을 알아듣는 것이다. 즉, 스피치 레커그니션(Speech Recognition)이라 한다. 예를 들면 운전 중 내비게이션을 조작하거나 집에서 리모컨이 없을 경우가 있다. 이럴 때 사용자가 말을 하면 목적지가 세팅되고, 원하는 음악이 플레이되면 어떨까. 이러한 것들이 바로 대표적인 음성인식 기술들이다.

반면, 화자인식의 경우 '누가 이 이야기를 했는지'를 구분하는 것이다. 예를 들어 집 현관문을 연다면 주인만 열어줘야 할 것이다. 화자인증은 내 목소리만 알아듣고 인증을 해 주는 것이다. 최근 화자인식 기술이 활성화되려고 하는 분야는 금융권이다. '핀테크' 기술 등이 활성화되면서 화자인식, 지문, 얼굴, 홍채 등 바이오 정보를 보안에 적용하려는 시도가 늘어나고 있다. 화자인식 기술은 북미와 유럽을 중심으로 이미 많이 활성화되어 있으며 국내에도 이제 많은 관심을 보이고 있다.

음성인식과 화자인식, 일상으로 시나브로

Q. 음성인식 기술이 우리 일상에 도입된 사례를 소개해 달라.

음성인식 기술은 텍스트를 음성으로 변환하는 기술(Text To Speech, TTS)과 음성을 텍스트로 변환하는 기술(Speech To Text, STT)로 크게 나눠볼 수 있다.

텍스트를 음성으로 변환하는 'TTS' 기술은 응용 사례가 다양하다. 예를 들어 버스정류장에서 다음 정거장이 어디인지 안내하는 것은 TTS 기술을 적용한 것이다. 사람 목소리로 일일이 녹음하지 않고 텍스트로 된 내용을 스피치로 바꿔준 것이다. 기상청에서도 TTS 기술을 사용하고 있다. 날씨나 속보는 늘 변화하는 만큼 사람이 일일이 녹음하기 어려워 텍스트를 스피치로 바꿔주는 경우가 많다. 초기 TTS는 그리 자연스럽지 않았으나, 이제는 많은 사람들이 기계음과 사람 목소리를 구분하기 힘들 정도로 TTS 기술이 많이 발전했다. 향후 이것을 보다 더 사람의 목소리처럼 자연스럽게 하는 것이 기술의 관건이다.

음성을 텍스트로 변환해주는 'STT' 기술은 주로 헬스케어 분야에 적용되고 있다. 미국의 경우, 병원에서 환자가 진료 상담하는 내용을 녹음해 영구적으로 보관하도록 하는 법이 제정되었다. 이전에는 환자에 대한 기록을 남기려면 녹음된 음성을 다 들어야만 했는데, STT 기술을 이용하면 텍스트로 자동 변환할 수 있으니 간편하다. 국내에는 주로 상담원이 고객과 통화하는 콜센터에 적용되어 고객의 요구사항 등을 파악하는 데 주로 많이 사용될 수 있을 것이다.

이러한 음성인식 기술은 향후 발화내용 및 텍스트를 더욱 빠르고 정확하게 변환하는 방식으로 발전할 예정이다. 그렇다면 좀 더 다양한 분야에 적용될 수 있으리라 예상한다. 예를 들어, 아나운서가 말하는 내용을 실시간 자막으로 보여줄 수 있다면 어떨까. 현재는 청각 장애인에게 수화를 제공하지만, 이러한 기술이 현실화된다면 더 많은 사람들이 편리한 서비스를 누릴 것이다.

뉘앙스 커뮤니케이션즈

Q. 그렇다면 화자인식 기술은 생활 속에 어떻게 적용되고 있는가?

대표적인 것이 '목소리 인증 서비스'다. 기존에는 사용자가 고객센터 상담사와 통화 시 본인 확인을 위해 여러가지 개인정보를 말해야 했다. 하지만 목소리 인증 서비스를 이용하여 사용자의 목소리를 미리 녹음해 두고, 이후 목소리 발성을 통해 신원 확인을 하면 다른 개인정보는 묻지 않는 것이다. 목소리로 본인을 식별하는 '화자인식' 기술이다. 뉘앙스 커뮤니케이션즈는 '보컬 패스워드' 와 '프리 스피치'라는 화자인식 기술을 보유하고 있다.

Q. 화자인식 기술이 금융 보안에 적용되면 어떤 변화가 일어날까?

보통 모바일뱅킹 또는 인터넷 뱅킹을 이용하면 아이디와 패스워드(또는 공인인증서)로 로그인을 하고, 계좌이체를 위해 각종 숫자와 비밀번호를 입력한 뒤, ARS 인증을 거치고 보안카드와 OTP 등을 사용한다. 이러한 경우에 화자인증을 사용하면 이러한 번거로움을 줄일 수 있다.

해외 사례의 경우, 금융권에서 소액을 계좌이체 하는 경우 목소리 인증만으로 실제 이체가 진행되는 화자인식 기술을 적용한 사례가 있다. 각 은행마다 다르지만, 만불 이하 등 소액일 경우 본인 목소리만으로 계좌이체 처리를 한다. 현재 목소리로 본임임을 확인하는 화자인증 기술은 미국 등에서 널리 쓰고 있으며, 조만간 국내 금융권에도 적용될 전망이다.

향후에는 화자인식 기술이 ARS 시스템에 음성인식 기술과 접목되어 적용될 가능성도 있다고 생각한다. 현재 ARS 시스템은 계속 번호를 눌러야 하고, 어떤 숫자를 눌러야 하는지 기억해야 해서 불편하고 시간이 많이 소요된다. 각 콜센터마다 상담원을 연결하는 시나리오 또한 다르다. 이러한 것들을 음성 및 화자인식으로 처리한다면 어떨까. 물론 고려해야 할 사항이 많다. 예를 들어, 사용자가 단순히 '계좌이체'라고 말할 경우, 당행이체인지 타행이체인지 구분해야 하기 때문이다. 이러한 문제를 해결하기 위해 일명 '자연어 처리(NLU, Natural Language Understanding)'라고 불리는 지능적인 문장 처리 기술이 적용되지 않을까 생각한다. 사용자가 "내 계좌에서 어머니 OO은행으로 10만 원을 송금해줘"라고 말하면 간편하게 송금할 수 있을 것이다.

뉘앙스 커뮤니케이션즈

Q. 보컬 패스워드 외에 화자를 인식하는 다른 기술이 또 있다면 소개해 달라.

뉘앙스는 보컬 패스워드뿐만 아니라 '프리 스피치(Free Speech)'라는 화자인식 기술을 보유하고 있다. 프리 스피치란, 말 그대로 사용자가 자유롭게 말을 하는 것이다. 보컬 패스워드와 달리 특정 고정된 암호문(Passphrase)을 얘기하지는 않는다. 사용자가 자유롭게 상담원과 전화를 할 때 목소리가 녹음된다.

녹음 분량이 20초 이상이 되면 시스템에서 자동으로 저장을 한다. 이렇게 2번 정도 녹음이 되면 개개인을 식별할 수 있는 기반을 만들 수 있다. 사칭자가 전화를 해도 사칭자를 알아 차려서 상담원의 컴퓨터에 '이 목소리는 사칭자의 목소리입니다' 라고 보이므로 절대 사칭을 허락하지 않는다. 이러한 과정을 통해 범인을 잡을 수 있다. 실제 사용자와 일치하지도 않는데다 범인의 목소리도 녹음되기 때문이다. 이는 음성을 이용하는 바이오 정보의 장점 중 하나다.

실제로 해외사례에서는 이러한 솔루션 도입으로 사칭 건수가 10분의 1로 획기적으로 줄어드는 통계 데이터를 보여주고 있다. 사칭자의 녹음된 목소리를 데이터베이스에 저장해 두면, 어떤 은행에 접근하든지 '사칭자'라고 나타나기 때문에 보이스피싱도 불가능하다. 향후 이러한 기술을 응용한다면 보이스피싱 방지 서비스로 적용 가능할 것으로 예상한다.

Q. 프리 스피치를 통해 사칭자를 방지한 사례에 대해 이야기해 달라.

프리 스피치는 해외 은행들에서 사례를 찾아 볼 수 있다. 상담원을 통해 금융거래가 일어나는 경우가 이에 해당한다. 본인 목소리 확인을 상담원과 자연스럽게 통화하면서 인증이 된다. 상담원과 인터랙티브(Interactive)하게 통화가 이루어지므로 목소리를 녹음해 진행하는 것은 쉽지 않다. 통화한 내용이 녹음되므로 사칭자가 마치 해당 계좌의 주인인 것처럼 흉내내는 것 또한 쉽지 않다. 이러한 것들은 모두 실시간으로 확인된다. 프리 스피치는 사용자가 전혀 예상하지 못하는 상태에서 본인 인증을 하기 때문에 금융사기의 주범인 사칭자를 구별하고 붙잡을 수 있는 특징이 있다. 프리 스피치 솔루션은 보컬패스워드와 마찬가지로 실제 많은 부분에서 활용이 가능하다.

뉘앙스 커뮤니케이션즈

목소리로 신원을 인증하는 기술, 이렇게 연구한다

Q. 사람의 목소리를 통해 개개인을 어떻게 구분하는지 궁금하다. 자세히 설명해 달라.

내 목소리 인증 서비스를 예로 들어 설명하면 다음과 같다. 이 기술은 처음에 사용자의 목소리를 등록한 뒤, 이후 사용자의 목소리를 통해 인증을 한다. 처음에 사용자의 목소리를 등록하는 것을 '인롤(Enroll)'이라고 한다. 서버에 사용자의 목소리가 등록되지 않았다면 말소리를 내는 사람이 누구인지 비교 대상이 없어 인증하기 어렵기 때문에 이 과정을 거친다. 이 때, 모든 사람들이 공통으로 사용하는 암호문이 있다. 예를 들어 모든 사용자들이 "내 비밀번호는 내 목소리입니다"라는 고정 멘트(Passphrase)를 똑같이 말한다. 이 고정 멘트를 '패스프레이즈(Passphrase)'라고 한다. 패스프레이즈는 3번 정도 등록한다. 여러 번 등록하는 이유는 목소리 인식률을 높이기 위함이다. 또한, 처음 등록 시 목소리는 공백을 제외하고 최소 2초 이상이 되어야 정확한 인증이 가능하다.

이렇게 사용자가 음성을 등록하면, 목소리의 파형 중에서 특징점을 추출한다. 특징점은 10msec 단위로 추출한다. 보통 한 사람의 목소리를 나타내는 특징점은 200여 가지 이상이다. 그 사람 특유의 억양, 말 빠르기, 나이, 성별 등 다양한 요소가 약 200여 가지 된다. 사람마다 목소리의 원천인 성도, 갑상연골, 후두, 신체 크기 등이 다른데, 이러한 복합적인 요소에 따라 목소리 톤이 물리적으로 달라진다. 물론 나이대에 따라서도 목소리는 달라진다. 그래서 목소리가 바이오 정보로써 의미가 있는 것이다. 실제 사람의 두뇌에서도 이러한 200여 가지 특징을 조합해서 이 목소리가 어떤 사람인지 구별해낸다. 이러한 특징점을 이용하면 사칭자 등을 검거하는 솔루션을 적용할 수 있다.

만약 목소리를 일부러 다르게 흉내내면 등록되지 않을 수도 있겠지만, 내가 편하자고 하는 인증 서비스라면 굳이 그렇게 하지 않을 것이다. 2초 이상 목소리를 3번 등록했다면, 중간의 Silence 구간인 묵음들은 다 제외한다. 순수하게 목소리만 2초 이상이 되어야 한다. 즉 4~5개 단어가 한 문장으로 된 목소리를 녹음하면, 여기서 200여 가지 특징을 추출해서 이 사람이 홍길동이다, 김영희다 라는 정보를 구분해낼 수 있다.

Q. 본인 인증 기술은 보안성이 가장 중요하다. 화자인식의 경우 혹시 다른 사람이 목소리를 흉내 내어 도용할 위험은 없는가?

사람들이 자주 묻는 것 중에 하나가 '누가 내 목소리를 녹음해서 플레이하면 어떡하냐?'라는 것이다. 하지만 '플레이백 채널 디텍션(Playback Channel Detection)'이라는 기술을 통해 실제 목소리와 녹음본을 구별할 수 있다.

또한, 한 사람의 목소리의 특징을 점으로 표시한다면, 사람의 특징마다 어느 한 곳에 점들이 집중되는 등 고유의 특성을 보인다. 이러한 것을 수학적인 알고리즘으로 분별한다. 그래서 이 사람을 판별하여 이 사람은 거의 홍길동이 맞아'라고 판단한다. 다만, 얼마 이상의 점수로 할 것인지를 우리가 정할 수 있다.

Q. 화자 인증의 기술력 향상을 위해 어떤 연구를 하고 있는가?

정확도 향상을 위해 스레숄드(Threshold, 임계점이라는 뜻) 값을 이용한다. 음성을 포함한 바이오 정보는 100% 완벽하지는 못하다. 우리가 출입문에서 지문을 인식할 때도 "다시 대 주세요" 하는 경우가 많은 것처럼 인식률이 100%가 되기는 어렵다. 그렇다면 어느 정도 최적화해서 가져갈 것인지에 대한 기준이 중요한데 이 기준으로는 FAR, FRR이 있다. FAR은 False Accept Rate이고, FRR은 False Reject Rate이다. 즉, FAR은 False(틀린 것)인데 Accept(승인하다, 받아들이다) 하는 것이다. 인식 기준이 너무 까다로우면 본인인데도 인식을 하지 못하는 경우가 생길 수 있으므로, 어느 정도의 오차율을 감안하고 승인하는 것이다. 하지만 FAR의 기준이 관대하면, 사칭하는 사기꾼을 통과시킬 우려가 있다. 하지만 엄격한 FAR을 적용할 경우에는 맞는데도 잘못된 것으로 거부하는 FRR이 증가해서 올바른 사용자의 편의성을 감소시킬 수 있다.

이처럼 FAR과 FRR은 서로 상충된다. 이 두 가지를 조화롭게 맞추어 정확도를 높이는 것이 기술력이다. 두 가지를 모두 정확하게 맞추기란 어렵다. 다만, XY 그래프에 비유한다면 기울기를 완만하게 하는 것이 기술력의 관건이다. 기울기가 급격하면 에러율이 높아진다. 또한, 정확도를 높이기 위해 '튜닝'이라는 작업을 한다. 인식률이 낮게 나오면 무엇 때문에 백분율이 낮아졌는지 튜닝을 하는 것이다. 장비 자체에서도 잡음이 들어가는 것을 걸러내고, 깨끗한 음성만 남겨 인식률이 높아지도록 한다. 화자인식에서 가장 어려운 부분은 잡음이다. 공공장소에서 발생하는 소음이 인식률을 떨어뜨리는 요인이 되기 때문이다. 물론 각 바이오 정보마다 특정 상황에서 인식이 잘 안 되는 경우가 있어, 각각의 바이오 기술마다 장단점이 있다.

개개인의 어투, 억양, 목소리 크기 등은 고유하다. 이러한 것을 조합하는 만큼, 다른 바이오 정보보다 어려운 점도 있다. 민감하다는 것도 특징이다. 만약 감기에 걸렸는데 사람이 못 알아들을 정도라면 시스템도 인식이 어려울 수도 있다. 상황에 따라 사람 목소리가 변한다는 것은 화자인식을 연구하는 데 어려움이 될 수는 있으나, 성대 수술과 같이 특별한 경우를 제외하면 대부분 식별 가능하다.

Q. 그렇다면 이러한 기술은 어떻게 신뢰할 수 있는가? 안전을 위한 방식은 어떤 것들이 있는가?

솔루션은 계속해서 발전하고 있으나, 화자 인식만으로 100% 완벽하게 인증을 하기란 어려울 수 있다. 그래서 현재의 글로벌 표준에 따라 '투 팩터(Two Factor)' 인증을 따른다. 투 팩터 인증이란, 다른 보안 수단과 결합해 보다 안전하게 인증을 하는 것이다. 예를 들어 사용자가 금융 서비스를 이용할 때 기존의 비밀번호 정도는 본인이 입력을 하고, 목소리 인증까지 통과하면 계좌이체를 진행하는 방법 같은 인증 방법을 아직 많이 사용하고 있다.

글로벌 표준으로는 'FIDO(파이도, 바이오 인증 사용자인증 방식)'가 있다. FIDO의 인증 과정은 다음과 같다. 우선, 내가 등록한 바이오 정보가 어디 저장되는지가 관건이다. 예를 들어 목소리의 저장 공간이 파이도인지, 난(non) 파이도(서버 기관)인지를 구분한다. 파이도 기반은 바이오 정보를 단말기에 보관한다. 다만 민감한 정보이므로 특수 처리된 안전한 영역인 '트러스트 존(Trust Zone)'에 보관을 한다. 다시 말해, 파이도 기반은 이 트러스트 존에 바이오 정보를 보관한다. 한편, 난 파이도(서버 기반)이라면, 휴대폰과 같은 단말기 내에서 목소리를 저장하여, 목소리 인증을 수행하는 서버를 통해 인증해야 하므로, 사용자 인증시 서버와 통신하는 방식으로 처리한다.

뉘앙스 커뮤니케이션즈

뉘앙스의 경우, 음성을 녹음하더라도 실제 서버에 그 음성이 들어있지는 않다. 한 사람의 목소리 특징점을 쭉 추출하는데, 이 특징점을 '보이스 프린트(성문)'이라 한다. 이 보이스 프린트가 또한 암호화되어 있다. 이것은 그저 바이너리 파일이다. 이를 바탕으로 본인임을 추적해 나간다.

화자인식 기술이 도입된 미래상은?

Q. 바이오 인식 기술은 지문, 홍채, 정맥, 서명, 보행 등으로 그 종류도 다양하다. 다른 바이오 인식 기술 대비 화자인식의 장점이 있다면 무엇인가?

화자인식의 장점은 신체적인 특징과 행동학적인 특징을 동시에 아우를 수 있다는 것이다. 사람이 이야기하는 것 자체(목소리)는 바이오 정보이지만, 말을 하는 것은 두뇌의 명령 및 창의적인 요소에 속하며 상황에 따라 다양한 멘트를 내보낼 수 있다. 지문이나 홍채는 물리적인 것으로 쉽게 변화하지 않다. 그러나 목소리는 멘트를 바꾸는 등 다른 내용으로 변환이 가능하고, 사용자가 정하기 나름이다. 그런 면에서 유연성이 훨씬 높다. 최근 사물인터넷(IoT, Internet Of Things)이 많이 활성화 되어가고 있다. 우리가 개인 비서 기능을 하는 로봇을 제어한다고 생각해 보면 인간과 로봇간의 대화가 맨 먼저 떠오른다. 주인이 말하는대로 움직이고 원하는 기능을 수행할 수 있는데 이의 가장 기본적인 인터페이스는 목소리이다.

Q. 아무래도 화자인식은 우선 금융권에 적용될 것 같다.

그렇다. 화자인식이 가장 필요한 분야는 아무래도 금융권이다. 그것은 사칭자가 살아있는 한 영원한 숙제다. 보이스피싱만 하더라도 음성으로 이루어지는 사기 사건이다. 또한, 사람이 언어로 주고받으며 거래를 하는 이상은 목소리로 인증하는 화자인식 솔루션은 꼭 필요하다. 아직까지는 화자인식 기술에 대한 이해도가 부족하지만, 향후 기술이 본격적으로 도입된다면 사용자는 보다 안전할 것이다. 사용자가 카드를 분실하더라도, 카드를 습득한 사람이 목소리를 인증해야만 사용이 가능하다면 한결 걱정을 덜 수 있기 때문이다. 화자인식 기술은 은행 대출상품, 펀드, 주식 판매 및 구매에도 적용 가능하다.

뉘앙스의 경우, 시장 수요를 고려해 1차 타겟으로 금융기관, 공공기관 등을 고려하고 있다. 현재 이러한 기관에 걸맞는 서비스를 준비하고 있다.

핀테크 관련 포토리아 이미지

Q. 화자 인증의 미래와 전망은 어떠한가?

최근 '핀테크'가 이슈가 되며 보안이 중요해지고 있는데, 그러다 보니 목소리를 포함한 바이오 정보를 조합하는 기술이 점점 도입되고 있다. 바이오 정보는 다른 사람이 흉내내기 어렵기 때문이다. OTP는 도난 및 분실 위험이 있다. 흔히 카드를 잃어버렸을 때 '누군가가 내 카드를 사용하면 어떡하지'라고 걱정한다. 만약 카드를 긁는 것으로만 끝나지 않고, 목소리와 같은 바이오 인증이 더해져야만 결제가 완료된다면 어떻게 되겠는가. 만약 그렇게 되면 도둑이 훔친 카드를 사용할 수 없을 것이다.

연간 금융사고로 고객들이 겪는 금전 피해액은 은행별로 수십 억 단위인데, 이러한 기술이 도입되면 위험 요소가 많이 차단될 것이다. 현재는 피싱과 같은 위험을 막겠다고 밤12시부터 새벽1시까지 이체 금액을 제한하는 등의 조치를 취하는데, 사용자 입장에서 매우 불편할 수 있다. 한 번 이체를 하면 30분 뒤에 다시 이체가 가능하다. 범죄 예방을 하는 것은 좋지만 사용자가 불편하다.

바이오 인식이 도입되면 솔루션에 따라 보안을 적용할 수 있다. 만약 개인용이라면 부부 사이라도 본인이 아닐 경우 결제를 못할 수 있다. 그것이 불편하다면 부부나 가족 등을 함께 등록해서 인증하는 솔루션도 있다. 이를 '그룹핑'이라 하는데, 한 그룹당 많은 인원을 등록할 수 있다. 법인카드 같은 경우에도 이렇게 쓸 수 있다.

향후에는 무인은행 등이 점점 늘어날 것이다. 과정의 복잡함과 인건비 때문이다. 또한, 많은 사람들이 굳이 은행에 가지 않고 통장을 이용하지 않더라도 금융 거래를 손쉽게 이용하고 싶어한다. 하루에도 금융거래가 수없이 일어나는 세상이다. 만약 통장을 개설하는데 내 목소리를 인증하고 비밀번호만 입력해서 완료할 수 있다면 어떨까. 은행을 갈 필요가 없을 것이다. 물론 추이를 지켜보아야 하나, 선진국의 사례를 보면 점차 늘어날 것으로 전망된다.

Q. 현재 다양한 영역에서 바이오 인식 기술이 차차 도입되고 있는데, 이에 대한 의견을 말해달라.

바이오 정보를 적용할 수 있는 분야는 금융, 의료, IT, 법, 군사 등으로 다양하다. 다만, 어떤 바이오 정보를 어디에 적용하는 것이 적합할지는 각각 다를 것이다. 예를 들면 주변 소음이 커서 목소리를 알아들을 수 없는 경우에는 화자인식보다 다른 바이오 인식 솔루션이 적합할 수도 있다. 이러한 점을 고려해야 한다.

사용자가 바이오 인증 기술을 편리하게 사용하려면 각 분야의 수요와 만족도를 고려해야 한다. 예를 들어 집에서도 화자인식 기술을 사용할 수 있다. 사물인터넷(IoT)에서도 가족이 아니면 원격에서 집 안의 다양한 기기들을 제어하도록 허락해서는 안될 것이기 때문이다.

물론 바이오 인증 기술의 활용 사례는 더욱 늘어날 전망이다. 이러한 기술이 적재적소에 적용되어 사용자들에게 유익하도록 노력할 것이다.

글 / IT동아 안수영(syahn@itdonga.com)

이전 다음