AI로 악플잡는 네이버·카카오, 남은 과제는?

정연호 hoho@itdonga.com

[IT동아 정연호 기자] 카카오(다음)와 네이버가 인공지능(이하 AI) 기술을 활용해, 뉴스의 악성 댓글을 자동으로 찾아 제재하는 시스템을 만든다. 악성 댓글의 탐지와 제재 능력이 아직 완전하지는 않지만, 업계는 AI 기술이 고도화되면서 이 시스템의 성능이 꾸준하게 발전할 것으로 전망한다.

국내 대표 포털 사이트 운영사인 카카오와 네이버는 ‘악성 댓글 방지’를 위한 정책을 만들고 있다. 많은 사람이 포털 사이트 뉴스의 댓글 때문에 피해를 본다는 비판이 거세졌기 때문이다.

그 일환으로 카카오와 네이버는 포털 사이트의 악성 댓글을 발견하고, 보이지 않게 가리는 AI봇(각각 세이프봇, 클린봇)을 개발했다.

카카오의 세이프봇, 출처=카카오
카카오의 세이프봇, 출처=카카오

카카오 ‘세이프봇’은 다음과 카카오탭의 뉴스 댓글을 분석한다. 욕설/음란/불법 내용의 댓글을 발견하면 가리고, 신고한다. 신고된 댓글이 운영정책을 위반했다면, 카카오가 이를 삭제한다.

욕설과 비속어를 포함한 댓글 수 추이, 출처=카카오
욕설과 비속어를 포함한 댓글 수 추이, 출처=카카오

세이프봇은 실제로 악성 댓글을 잡는 데 효과가 있다. 카카오는 “세이프봇 적용 전인 2020년과 적용 후인 2021~2022년의 월평균 수치를 비교하면, 욕설이나 비속어를 포함한 댓글이 3분의 1로 줄었다. 이용자가 신고한 악성 댓글도 12분의 1로 감소했다”고 밝혔다.

세이프봇의 정확도를 높이기 위해서, 카카오는 혐오 표현의 정의, 원칙, 판단 기준을 담은 ‘코딩북’을 만들고 있다. 전문성을 갖춘 외부 연구진이 이 과정에 참여한다. 코딩북을 학습한 세이프봇은 여러 서비스에 순차적으로 적용될 예정이다.

네이버의 클린봇, 출처=네이버
네이버의 클린봇, 출처=네이버

네이버 클린봇도 웹툰, 뉴스의 악성 댓글을 찾고, 가린다. 특징은 댓글의 맥락을 읽는다는 것이다. 비속어를 포함하지 않는 악성 댓글(혐오 표현, 성적 표현)은 클린봇이 맥락을 읽어서 잡아낸다.

네이버 클린봇이 잡은 문장(1, 3), 잡지 않은 문장 (2, 4), 출처=네이버
네이버 클린봇이 잡은 문장(1, 3), 잡지 않은 문장 (2, 4), 출처=네이버

네이버가 공개한 클린봇의 원리 자료를 살펴보면, 클린봇은 ‘(1)너 같은 쓰레기 같은 놈은 쓰레기통에나 들어갔으면 좋겠다’와 ‘(2)사람들이 쓰레기를 쓰레기통에다가 좀 버렸으면 좋겠다’의 차이를 이해한다. (1) 문장이 사람을 쓰레기에 빗대어 모욕한다는 점, (2) 문장이 쓰레기의 사전적인 의미를 사용한다는 점을 안다는 뜻이다.

클린봇을 도입한 이후로 악플 생성 비율과 악플 노출비율 추이, 출처=네이버
클린봇을 도입한 이후로 악플 생성 비율과 악플 노출비율 추이, 출처=네이버

클린봇도 역시 네이버의 악성 댓글 감소에 기여했다. 지난 3월, 네이버는 “AI 클린봇을 도입한 뒤 악성 댓글 생성 비율이 2020년 26.5%에서 2023년 초 16.7%로 줄었다. 다른 이용자가 악성 댓글을 보는 비율은 2019년 21.9%에서 2023년 초 8.9%까지 떨어졌다”고 밝혔다.

다만, AI 업계는 악성 댓글을 제재하는 AI봇의 완성도가 아직 낮다고 말한다. AI봇은 비속어를 포함한 악성 댓글을 잘 찾아낸다. 하지만, 문맥을 이해하지 못해서 혐오표현을 제재하지 못하는 경우가 많다.

AI봇이 비속어를 포함하지 않는 혐오 표현을 실제로 잘 제재하는지 확인하기 위해서, 네이버 뉴스 페이지에서 혐오 표현의 주요 공격대상이 되는 ‘여성’과 관련된 기사를 확인해봤다.

클린봇은 “권리는 주고 의무는 나몰랑”, “국민 절반인 여자는 머리가 모자라고 신체가 나약한 팔X이들이라 이런 조치가 필요하다는 거냐”같은 혐오 표현을 제재하지 않았다. 반면, “사회에 도움이 1도 안 되는 기생충 새X들 왜 살까 도대체”, “적극적으로 대X리 깨고 싶네”같은 비속어가 포함된 댓글을 제재했다.

네이버 관계자는 “혐오나 비하, 차별적인 표현에 대한 기준은 개인마다 다르다. 네이버가 이 기준을 임의로 정하는 것은 어렵다”면서 “특정 단어는 문맥에 따라 차별 표현이 될 수 있는데, 이러한 단어나 문장을 모두 잡아내는 것은 쉽지 않다. 이를 해결하기 위해서, 네이버는 한국인터넷자율정책기구(KISO)에서 발표한 혐오 표현 가이드라인을 따르고 있다”고 말했다.

다음 뉴스 페이지에서 확인한 여성과 관련된 기사의 댓글도 마찬가지였다. 세이프봇은 “여자는 일을 진짜 못한다. 젊은 여자는 더 심각하다. 업무 배우는 건 관심 없다”, “여성임원이 많아야 하나요?”와 같은 혐오 댓글을 제재하지 않았다. 반면, “넘어가는 X이 문제지”, “손가락을 잘X버려라”처럼 노골적인 욕설이 있는 댓글들을 제재했다.

전문가들은 AI봇이 여러 종류의 악성 댓글을 잡아내려면 다양한 데이터를 학습해야 한다고 강조한다. 현재 AI봇은 특정 욕설이나 멸칭을 주로 학습한다. 그래서, 이러한 표현이 담긴 문장만 제재하는 것이다. 인터넷에 만연한 여러 혐오 표현을 학습하면, AI봇은 다양한 악성 댓글을 잡아낼 수 있다.

카카오와 네이버는 AI봇의 성능을 고도화하기 위해서 다양한 노력을 할 것이라고 입장을 전했다. 카카오 관계자는 “사람들이 안전하게 서비스를 이용할 수 있도록, 이용자의 다양한 의견을 듣고 검토해 세이프봇 기술을 고도화할 계획이다”라고 말했다. 네이버 관계자는 “AI봇의 성능을 개선하기 위해서 혐오와 차별 표현 데이터를 많이 확보하고, AI 모델을 발전시킬 것이다”라고 했다.

글 / IT동아 정연호 (hoho@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.