[뉴스줌인] 카카오브레인의 초거대 이미지생성 AI 'RQ-Transformer'란?

정연호 hoho@itdonga.com

[IT동아 정연호 기자] IT동아 편집부에는 하루에만 수십 건을 넘는 보도자료가 온다. 대부분 새로운 제품, 혹은 서비스 출시 관련 소식이다. IT동아는 이 중에 독자들에게 도움이 될 만한 것 몇 개를 추려 기사화한다. 다만, 기업에서 보내준 보도자료 원문에는 전문 용어, 혹은 해당 기업에서만 쓰는 독자적인 용어가 다수 포함되기 마련이다. 이런 용어에 익숙하지 않은 독자를 위해 IT동아는 보도자료를 해설하는 기획 기사인 '뉴스줌인'을 준비했다.

출처: 카카오브레인 (2022년 4월 19일)

제목: 카카오브레인, 이미지 생성 모델 ‘RQ-Transformer’ 공개

출처=카카오브레인
출처=카카오브레인

요약: 카카오브레인에서 자사의 초거대 멀티모달 AI ‘minDALL-E’를 업그레이드한 버전인 이미지 생성 모델 ‘RQ-Transformer’를 오픈소스 커뮤니티 깃허브(GitHub)에 공개했다. 39억개의 매개변수로 구성된 ‘RQ-Transformer’는 3000만 쌍의 텍스트-이미지를 학습한 text-to-image(텍스트-이미지) AI 모델로, 계산 비용을 줄이고 이미지 생성 속도를 높이면서 이미지 품질을 크게 향상시킨 모델이다. 대규모 데이터 세트를 학습한 ‘RQ-Transformer’는 처음 보는 텍스트의 조합을 이해하고, 이에 대응하는 이미지를 생성한다.

해석: 카카오브레인이 공개한 ‘RQ-Transformer’은 이용자가 텍스트를 입력하면, 텍스트를 분석해 그에 맞는 이미지를 생성하는 멀티모달 인공지능(이하 AI) 이미지 생성 모델이다. 멀티모달(Multimodal)이란 글, 이미지, 음성 등 다양한 데이터를 이해할 수 있는 AI 모델을 말한다. 메시지(텍스트)를 분석해 이미지를 만들려면, 결과물로 어떤 이미지가 나와야 하는지를 AI가 이해해야 한다. 그래서 다양한 형식의 데이터를 인식할 수 있어야 하는 것이다. 현재 단계에선 영어로 된 명령어(메시지)로만 이미지를 생성할 수 있다.

RQ-Transformer를 통해 만든 '사막에 있는 에펠탑' 사진, 출처=카카오브레인
RQ-Transformer를 통해 만든 '사막에 있는 에펠탑' 사진, 출처=카카오브레인

위 사진은 ‘사막에 있는 에펠타워’를 그려 달라는 메시지를 분석해 만든 이미지다. 프랑스 파리에 있는 에펠탑을 사막을 배경으로 해서 새로운 사진을 만든 것이다. 이미지 생성 모델은 일반적인 사진뿐 아니라 현실의 사실, 법칙과 무관한 사진도 생성할 수 있다. RQ-Transformer는 스페인의 초현실주의 화가인 살바도르 달리의 ‘기억의 지속’이란 작품처럼 녹아내리는 시계가 의자에 걸쳐져 있는 비현실적인 사진도 만들 수 있다.

카카오브레인에서 공개한 RQ-Transformer는 매개변수(파라미터)가 39억개에 달한다. 파라미터란 AI가 학습하는 데이터의 양을 말한다. 이 파라미터가 많아질수록 AI 성능이 좋아진다. 현재 언론에서 보도되는 수천 억 단위의 파라미터를 가진 AI는 보통 언어를 이해하고 생성하는 언어 모델이라고 한다. 카카오브레인의 RQ-Transformer는 국내에선 가장 많은 파라미터를 가진 이미지 생성 모델이다. 이는 세계적인 이미지 생성 모델과 견주어도 높은 수치다.

RQ-Transformer의 특이점은 모두 카카오브레인의 독자적인 기술로 개발된 AI라는 것이다. 이전 버전인 minDALL-E(민달리)는 오픈 소스(누구나 이용할 수 있도록 공개된 프로그램 소스 코드)를 기반으로 개발됐다. RQ-Transformer는 민달리 대비 모델 크기가 3배, 이미지 생성 속도와 학습 데이터 세트 크기는 2배 늘어났다. 기존의 이미지 생성 모델이 2차원 코드맵으로 표현됐다면, RQ-Transformer는 3차원 코드맵으로 이미지를 생성하도록 설계됐다. 사진은 3차원(3D)인 현실을 2차원(2D)으로 표현하기 때문에 입체감이 떨어진다. 카카오브레인의 AI는 사진 속 대상을 쪼개서 실제 현실과 같이 3D로 인식해 학습한다. 덕분에 RQ-Transformer는 이미지를 생성할 때 사진 속 대상들을 입체적으로 구현할 수 있게 된다.

카카오브레인 관계자는 “소상공인들이 언어 모델 AI를 리뷰에 답변이 자동으로 달리게 하거나, 상품 소개 글을 생성하는 데 사용하는 것처럼 이미지 생성 모델 AI도 고도화와 상용화가 된다면 널리 쓰일 수 있을 것”이라고 말했다. RQ-Transformer도 추후엔 소상공인이 메뉴판에 맞는 사진을 만들거나, 그림 실력이 없는 사람이 원하는 바를 그림으로 표현하는 것 등에 활용될 수 있을 것으로 보인다.

글 / IT동아 정연호 (hoho@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.