돌아온 이루다, '불편하지 않은 답변'이 가능하려면

#GDPR #개인정보호위원회 #스캐터랩 #연애의과학 #이루다 #인공지능 #인공지능윤리 #정보인권연구소 #참여연대 #텍스트앳 #한국4차산업혁명센터

정연호 hoho@itdonga.com

2021.12.31.

[IT동아 정연호 기자] 2013년에 개봉한 영화 ‘Her’은 인공지능의 미래를 그려내는 영화다. 음성 AI(인공지능)인 ‘바네사’는 사람과 자연스럽게 소통하며 음성지시에 따라 메일을 읽어주고, 스케줄을 관리하는 AI 비서다. 여기서 더 나아가, 바네사는 스스로 사고하며 인간과 감정까지 교류한다.

AI와 인간의 교류는 먼 미래의 일은 아닐 것으로 보인다. 인공지능이 ‘자연언어처리(Natural Language Processing, 이하 NLP)’로 인해 빠르게 발전하고 있기 때문이다. 자연언어처리란 사람들이 만든 텍스트 의미를 이해하고, 텍스트 정보를 추출 및 분류하며, 직접 텍스트를 생성하는 기술이다. 질의응답 시스템에 자연스럽게 답하는 챗봇 역시 자연언어처리 덕분에 세상에 나올 수 있었다.

한국에서도 딥러닝 알고리즘으로 친근하고, 자연스러운 일상대화를 구현한 ‘이루다’가 2주 만에 이용자 80만 명을 모았으나, 사회적 약자를 향한 혐오발언과 개인정보 침해로 논란을 일으켰다. 학습자료로 쓰인 연인 간의 대화내용이 당사자 몰래 차용되기도 했다. 결국, 출시된 지 3주 만에 서비스를 종료했다. 그런데 최근, 이루다 개발사인 스캐터랩은 ‘이루다 2.0’이 내년 초에 돌아올 것이라고 발표했다.

이루다 사건을 다시 한번 짚어보자. 스캐터랩은 연인과 주고받은 메시지로 연애 감정을 파악하는 ‘연애의 과학’, 메신저 기반으로 감정을 분석하는 서비스인 ‘텍스트앳’ 등의 대화형 AI 서비스를 제공한다. 이루다는 연애의 과학, 텍스트앳을 통해 이용자 60만 명이 제공한 제공한 카카오톡 대화 문장 94억 건을 학습했다.

개인정보호위원회(이하 개보위)는 이루다 사항을 포함한 총 8가지 개인정보보호법 위반행위로 스캐터랩에 1억 330만 원의 과징금과 과태료를 부과했으며, 시정조치를 명령했다. 개보위는 “이루다를 개발할 때, 알고리즘 학습과정에서 카카오톡 대화에 포함된 이름, 휴대전화번호, 주소 등의 개인정보를 삭제하거나 암호화하는 조치를 하지 않았다”고 전했다.

이어 “텍스트앳과 연애의 과학 개인정보처리방침에 ‘신규 서비스 개발’을 포함시켜 이용자의 로그인을 동의로 간주한 것만으로는, 이용자가 신규 서비스 개발 목적에 대화 내용을 이용하는 것을 동의했다고 보긴 어렵다. 신규 서비스 개발이라는 기재만으로 ‘이루다를 개발하고 운영하는 데 카카오톡 대화가 이용될 것’을 이용자가 예상하기 힘들며, 이용자의 개인정보 자기결정권이 제한되는 등 예측할 수 없는 손해를 입을 우려가 있다”라고 했다.

또한, 개보위는 스캐터랩이 ‘개인정보보호법 제28조의2 제2항’을 위반했다고 판단했다. 스캐터랩은 오픈소스 공유 플랫폼 깃헙(Github)에 이름 22건, 지명정보 34건, 성별, 대화 상대방과의 관계 등이 포함된 카카오톡 대화문장 1,431건, 그리고 AI 모델을 게시했다. 가명정보를 불특정 다수에게 제공하면서, 특정 개인을 식별하는 데 사용할 수 있는 정보를 포함한 것이다.

AI윤리 준칙으로 고도화된 ‘이루다2.0’

이루다 사건 이후로, 스캐터랩은 AI 윤리를 점검하고, AI챗봇 윤리 준칙을 수립했다. 내년 1월 11일부터 '이루다2.0' 비공개 베타 테스트를 진행해 3000명의 피드백을 받아 서비스를 고도화한다. 베타 테스터로 선발되면 3주에 걸쳐 이루다 2.0이 문맥을 이해하고 적절하게 답변했는지 검토한다. 선정적, 공격적, 편향적인 단어나 문맥을 탐지한 이루다 2.0이 어떻게 대응하는지도 살핀다.

이루다 2.0은 개인정보로 보이는 것들을 모두 제거하고 엄격하게 가명처리한 데이터베이스로 학습과정을 거쳤다. 14세 미만이거나 삭제를 요청한 사용자 데이터는 제외됐다. 개인정보보호를 강화할 수 있도록, 이루다 2.0의 답변은 AI 알고리즘 등을 통해 완전히 새로운 문장으로만 구성된다. 어뷰징 탐지 모델을 접목해, 대화 시 특정 단어·문맥을 탐지해 선정적이거나 공격적, 또는 편향적 문장에 대응할 수도 있다.

불편하지 않은, 적절한 답변을 하려면..

전문가들은 이루다의 답변을 보고 “이루다가 자연스러운 답을 내놓지 못했다”고 분석한다. 이루다는 성적인 지향성, 가치관, 신념 등에 대한 민감한 질문에 불편함을 주지 않는 답변을 내놓지 못했다. 이에 대해, 인공지능이 학습할 데이터에서 혐오적인 표현이나 편견을 담은 데이터를 걸러내야 한다는 지적이 나왔다. 혐오와 편견이 담긴 데이터를 학습한 인공지능은 혐오표현을 사용하고, 특정 대상에게 피해를 주는 차별을 할 수 있기 때문이다.

참여연대는 지난 3월 '이루다는 왜 카톡 대화를 수집했나' 글을 통해서, “한국방송통신전파진흥원은 AI 면접을 참고자료가 아니라 채용 여부의 당락을 결정하는 직접수단으로 사용하였는데, 어떤 알고리즘으로 불합격됐는지 파악하지 못했다. 인공지능은 사람보다 더 불공정할 수 있다. 인류는 적어도 (불공정을) 시정하려고 노력해 온 역사를 가지고 있지만, 편향이 내재된 인공지능은 그럴 계획이 없다. 인공지능이 구축하는 질서는 이 불평등을 항구화할 것”이라고 입장을 밝혔다.

아마존의 채용 AI는 아마존에 재직 중인 기술 인력이 남성 위주라는 사실을 학습한 뒤, “여성” 또는 “여성 체스 클럽 장” 등의 단어를 포함한 이력서에 자동으로 불이익을 주었다. 이런 사례를 고려할 때, ‘AI가 중립적이고, 공정할 것’이란 전제를 무비판적으로 받아들이긴 힘들다. 참여연대는 “인공지능 알고리즘을 공개할 수도, 검증할 수도 없다면 사후적인 문제제기나 권리구제조차 원천 봉쇄될 것이다. 인공지능에 대한 사회적 통제가 시작돼야 한다”고 전했다.

정보인권연구소의 논평 "돌아오는 '챗봇이루다'는 과연 안전할까?", 출처=참여연대 홈페이지

정보인권연구소는 지난 24일 '돌아오는 챗봇 이루다는 과연 안전할까' 논평을 통해, “지난 4월 심의에서 개보위가 사기업 내부에서 영리목적의 상품서비스를 개발하는 것을 ‘과학적 연구’의 범위로 판단했다. 이는 향후 기업의 다양한 AI 상품, 서비스 개발을 애초 정보주체로부터 동의받은 수집목적과 무관하게 양립 가능한 것으로 해석될 수 있다. 기업들이 마케팅이나 상업적 이용을 위해 수집 목적을 달성한 후에도 개인정보를 보관하고, 과학적 연구라는 미명 하에 마음대로 활용한다면 이루다 사태는 반복될 것이다. 방식이 과학적이라고 해서 사적기업의 독점적 상품, 서비스의 연구개발까지 동의를 면제하는 것은 정보주체의 동의권을 무력화하는 것”라고 비판했다.

이어, "주요 영역에서 사용되는 인공지능이 차별, 편향적인 결과물을 산출할 때, 시정이 불가능하다면 폐기하는 게 공익에 부합한다. 이탈리아, 네덜란드 등의 개인정보보호 감독기관은 배달플랫폼 알고리즘의 노동자 차별과 사회복지 급여 알고리즘의 신청자 차별을 단호하게 제재하고 있다. 한국의 개보위가 9월 국회에 제출한 개인정보보호법 2차 개정안은 인공지능 시대, 신기술 환경에서 위협받는 정보주체의 권리 보호 장치가 부족하다. 인공지능 등 새로운 신기술의 시대에 취약한 정보주체의 권리 보호 방안을 마련하고, 기업의 자율적 윤리기준을 넘어 의무와 책임이 동반되는 법규를 마련해야 한다"고 강조했다.

서울대 법학전문대학원 박상철 교수는 “과학적 연구로 동의를 면제받으려면, 개인을 식별할 수 없도록 가명처리를 해야 한다. EU의 GDPR(개인정보보호 규정)을 참고해서, 정보 보호와 정보를 활용하는 이 두 가지 지점을 최대한 살리려고 한 것이다. 가명처리를 하면, 정말 특별한 사정없이는 개인을 식별할 수 없다”면서 “자연언어처리의 경우 비정형 데이터를 가명 처리하는 게 쉽지 않다. 모든 문장을 다 들여다보면서 개인정보를 지워야 하는데, 몇백억 개의 데이터를 확인해야 하는 경우도 있다. 사회적인 합의가 전제돼야 하지만, 초거대 AI 같은 경우엔 기준을 조금 완화할 수도 있을 듯하다”고 전했다.

일각에선 이루다 사건이 인공지능 산업의 분위기를 경직되게 만들었다는 우려가 나온다. 인공지능 규제가 필요하냐는 질문에 박 교수는 “규제가 아니어도 가이드라인 형태처럼 다양한 방식이 존재한다. 물론, 채용이나 입학처럼 사람 인생에 큰 영향을 미친다면 좀 더 엄격한 기준이 필요할 수 있다. 사업자의 자정 작용이나, 시장 매커니즘에 의해서 해결이 안 될 때, 규제를 하는 것이다. 자율적인 방식으로 안 되면, 시장을 들여다보고 규제를 생각할 수 있다”고 말했다.

인공지능 맞춤형 '윤리', '법적 대응' 모두 필요

한국4차산업혁명센터가 발표한 보고서 ‘인공지능의 윤리/정책/사회 이슈’는 “인공지능 알고리즘은 암을 치료하는 임무를 수행하기 위해서, 암 환자를 죽이는 방법도 택할 가능성이 있다. 알고리즘 설계 단계에서 인공지능이 공정한 결과를 도출하도록 유념해야 한다”며 윤리적 대응을 제언했다.

이어, “(법 제도적 대응) 규율 영역에 따라 규제의 정도나 방법이 달라져야 한다. 인공지능 알고리즘이 위협적인 무기와 결합하면, 위협적인 무기를 규율하는 법률보다 강화된 규제가 필요하다. 개발과정에 대한 보고의무 부과나 안전성 심사 등의 규제방안이 필요하며, 개발 허가과정 심사를 통하여 개발하고자 하는 인공지능 시스템의 설계 내용이 관계법령과 안전기준을 충족하는지를 평가하는 방안도 생각할 수 있다”고 전했다.

그렇다면, 인공지능의 오류로 인한 사고는 누가 책임을 져야 할까? 설계자나 사용자가 인공지능을 통제하지 못하는 상황이 생기기 때문에, 단순한 책임논리로는 이를 해결할 수 없다는 지적이 나온다. 이에 대해 박상철 교수는 “AI 배후에 있는 사람을 면책해주자는 논리 중 하나가 ‘AI는 작동과정이 복잡하기 때문’이다. 하지만, 건설 현장에서 사고가 난다고 할 때도, 굉장히 많은 사람이 협업을 하기 때문에 책임을 따지는 일은 마찬가지로 복잡하다. AI도 사회에 위해가 발생했을 때, 이 위해를 방지할 수 있는 사람이 누구였는지를 법적으로 팩트를 추적하면 알 수 있다”고 말했다.

글 / IT동아 정연호 (hoho@itdonga.com)

#GDPR #개인정보호위원회 #스캐터랩 #연애의과학 #이루다 #인공지능 #인공지능윤리 #정보인권연구소 #참여연대 #텍스트앳 #한국4차산업혁명센터