가짜 목소리·영상 ‘딥페이크’ 잡을 인공지능 기술 속속 등장

[IT동아 차주경 기자] 사람의 목소리나 얼굴을 교묘하게 변조, 편집한 딥페이크(DeepFake)가 가짜 뉴스와 음란 콘텐츠를 만드는 데 악용되면서 사회 문제로 떠올랐다. 인공지능을 더해 만든 딥페이크는 진짜인지 가짜인지 구분하기 어려울 정도로 정교하다. 이에 인공지능 기술 기업과 학계는 딥페이크를 적발할 기술을 속속 선보인다.

미국 마이크로소프트는 2020년 ‘MS 비디오 인증기’를 선보였다. 이 기술은 딥페이크로 의심되는 사진이나 동영상을 인공지능 분석해 조작이나 가공 여부를 판별 후 확률로 표시한다. 화면 속 피사체와 배경의 그림자, 색깔의 미세한 변화는 물론 피사체간 경계면의 화소의 변화까지 검사해 조작이나 가공됐는지 알아내는 원리다.

딥 페이크를 구분하는 MS 비디오 인증기. 출처 = 마이크로소프트
딥 페이크를 구분하는 MS 비디오 인증기. 출처 = 마이크로소프트

아무리 정교한 딥페이크 기술이라 해도, 초당 수십 장씩 이어지는 동영상의 화면 속 피사체, 배경을 하나하나 자연스럽게 조작 가공하기는 어렵다. 이 과정에서 그림자나 색깔이 한순간 어색하게 바뀌거나 화소가 부자연스럽게 모이는 등 문제가 생긴다. MS 비디오 인증기는 이런 화면 속 어색한 부분을 감지해 딥페이크 여부를 판별한다.

최근 일본과 스페인, 폴란드의 연구진은 인물 동영상의 딥페이크 여부를 판별하는 ‘인공지능 거짓말 발견’ 기술의 공동 연구 결과를 발표했다. 이 기술은 동영상의 화면뿐 아니라 사람의 목소리의 딥페이크 조작 여부도 알아낸다.

이 기술은 먼저 인물 동영상에 원본임을 보증하는 정보를 숨겨놓는다. 동영상을 조작 가공하면 이 정보가 사라지므로, 정보 검사 만으로 딥페이크 적용 여부를 손쉽게 판별 가능하다. 이어 이 기술은 동영상 속 사람의 입술 모양과 움직임을 특정 성분으로 추출하고, 이 성분과 목소리를 대조 검증한다. 입술은 자음을 말하는 모양인데 실제 목소리는 모음이라면, 입술이 완전히 닫혀 있는데 목소리가 나온다면 딥페이크로 조작 가공됐을 가능성이 크다.

인공지능 거짓말 발견 기술을 쓰면 사람의 목소리를 조작 가공해 진짜 인물 동영상에 덧씌운, 혹은 반대로 진짜 사람의 목소리를 조작 가공한 인물 동영상에 덧씌운 딥페이크를 적발 가능하다. 연구진은 정치인, 연예인 등 사회 영향력을 가진 사람들의 딥페이크가 악용되는 것을 막으려 인공지능 거짓말 발견 기술을 연구 개발했다고 밝혔다.

세계 인공지능 관련 기술 기업들도 속속 딥페이크를 판별할 소프트웨어와 하드웨어 기술을 선보이며 힘을 싣는다.

어도비 CAI 발표 현장. 출처 = 어도비
어도비 CAI 발표 현장. 출처 = 어도비

콘텐츠 소프트웨어 제조사 어도비, 마이크로소프트는 동영상 편집 이력을 암호화로 보관하는 소프트웨어를 함께 개발한다고 밝혔다. 편집 이력을 보존하는것 만으로도 가공과 조작 여부를 한결 손쉽게 확인 가능하다. 앞서 어도비는 세계 콘텐츠 기업과 함께 콘텐츠 위조와 변조, 가짜 뉴스 제작과 전파를 막을 기구 ‘CAI(Content Authenticity Initiative, 콘텐츠 자격 증명)’를 결성해 운영 중이다.

컴퓨터 기술 설계사 엔비디아도 최근 언어 처리 능력을 강화한 인공지능 가속 칩을 선보였다. 이 가속 칩을 쓰면 딥페이크 목소리를 실시간으로 구분 가능할 만큼 인공지능 음성 분석 효율과 정확도 모두 좋아지는 것으로 알려졌다.

글 / IT동아 차주경(racingcar@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.