소셜미디어들, AI 학습용 데이터에 가격표 붙인다

권택경 tk@itdonga.com

[IT동아 권택경 기자] 소셜미디어 기업들이 인공지능(AI) 개발사들과 데이터 이용 계약을 맺는 사례가 점차 늘고 있다. AI 학습 데이터 이용에 정당한 대가를 지불해야 한다는 분위기와 새로운 수익원을 마련하려는 소셜미디어들의 움직임이 맞물린 결과다.

지난 27일 미국 정보통신 전문 매체 404미디어는 개인 블로그 서비스인 텀블러와 워드프레스를 운영하는 오토매틱이 오픈AI와 미드저니에 AI 학습용으로 제공할 게시물 데이터를 준비 중인 정황이 담긴 내부 문서를 보도했다. 지난주 무렵부터 텀블러 이용자들 사이에서 먼저 소문으로 돌던 내용이 사실임이 내부 문서를 통해 확인된 것이다.

출처=셔터스톡
출처=셔터스톡

매체는 이 문서가 오픈AI와 미드저니와 텀블러의 모회사인 오토매틱 사이의 계약이 임박했음을 분명히 보여준다고 덧붙였다. 텀블러 측 제품 관리자가 작성한 것으로 알려진 문서에는 오픈AI와 미드저니에 제공할 데이터를 준비하는 과정에서 공개 블로그의 비공개 게시물처럼 포함되어선 안 되는 데이터도 포함하는 문제가 발견했다는 내용이 담겼다.

오토매틱은 구체적인 언급은 피했지만 AI 업체들과의 협력 자체는 인정하는 모양새다. 404미디어 보도 이후 오토매틱은 ‘유저의 선택권을 보호한다’는 입장문에서 “이용자들이 신경 쓰는 데이터 소유권, 수집권, 제어권 등에 부합하는 계획이 부합하는 특정 AI 기업들과 직접 협력하고 있다”고 밝혔다.

AI 회사와 협력하되 게시물이 학습 데이터로 이용되는 것을 거부할 권리 등 사용자의 선호도에 따른 선택권을 보장하겠다는 의미다. 오토매틱은 텀블러와 워드프레스에 AI 회사의 데이터 수집을 거부하도록 설정하는 기능도 추가했다고 밝혔다.

오토매틱과 이들 AI 기업들과의 구체적인 계약 형태나 규모 등은 아직 알려지지 않았다.

소셜미디어 기업이 AI 개발사와 학습 데이터 제공 계약을 맺은 게 이번이 처음은 아니다. 미국 최대 온라인 커뮤니티인 레딧도 지난 22일 구글에 데이터 이용 권한을 제공하는 연간 6000만 달러(약 801억 원) 규모 계약을 체결했다. 레딧은 지난해 6월부터 트래픽 부담을 이유로 AI의 학습 데이터 수집 등에 필요한 응용 프로그램 인터페이스(API)를 유료화하는 정책을 시행한 바 있다.

출처=셔터스톡
출처=셔터스톡

오는 3월 기업공개(IPO)를 앞둔 레딧은 지난해부터 광고 외 새로운 수익원을 확보하기 위해 데이터 사업에 집중하는 모양새다. 실제 스티브 허프먼 CEO는 API 유료화 이후 미국 매체 더버지와 인터뷰에서 “데이터 라이선스는 우리에게 잠재적인 신사업”이라고 말하기도 했다.

지난해 10월에는 레딧이 마이크로소프트, 구글 등의 AI 사업자들과 데이터 이용권 계약을 맺지 못한다면 검색 엔진에서 레딧 게시물 노출을 막는 강수까지 검토했다는 워싱턴포스트 보도가 나오기도 했다.

AI 기업들도 데이터 이용 계약을 맺는 데 적극적으로 나서는 분위기다. 데이터 무단 이용, 저작권 침해 논란을 미리 차단하고 양질의 데이터도 확보할 수 있기 때문이다.

오픈AI는 지난해 12월에는 독일 미디어 기업인 악셀 스프링거와 계약을 맺고 악셀 스프링거 산하 매체들의 기사를 AI 학습에 사용하기로 했다. 앞서 같은 해 7월에는 AP통신, 셔터스톡 등과도 데이터 공급 계약을 맺었다.

우리나라에서는 정부가 나서서 AI 학습 데이터 이용에 적절한 보상을 제공해야 한다는 가이드라인을 내놓았다. 지난해 12월 문화체육관광부와 한국저작권위원회가 발표한 ‘생성형 AI 저작권 안내서’에는 AI 학습을 위한 저작물 이용 시 사전에 저작권자로부터 적절한 보상 등의 방법으로 적법한 이용 권한을 확보할 것을 권고하는 내용이 담겼다.

글 / IT동아 권택경 (tk@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.