동영상 만드는 인공지능 ‘런웨이 GEN-2’의 실력은?
[IT동아 차주경 기자] 달리 2(DALL-E 2)와 스테이블 디퓨전(Stable Diffusion), 미드저니(Midjourney) 등 사람이 입력한 문장의 내용을 사진이나 그림으로 만드는 인공지능은 세계에 큰 반향을 일으켰다. 나아가 사람이 입력한 문장의 내용을 동영상으로 만드는 인공지능이 등장했다. 런웨이(Runway) GEN-2다.
런웨이 GEN-2의 동작 원리는 다중 모달(Multi Modal, 다양한 수단과 방식을 써서 정보를 주고 받는 구조)이다. 먼저 풍부한 분량의 사진과 동영상 데이터를 분석하고 기억한다. 사람이 문장이나 사진, 동영상을 입력하면 내용을 분석하고 기존 데이터를 참고해 알맞은 내용을 창작하는 원리다.
덕분에, 이 인공지능은 사람이 입력한 문장의 내용을 고스란히 동영상으로 만든다. 문장과 사진을 함께 입력해도 동영상을 만든다. 위 예제 사진은 한 남자의 인물 사진(왼쪽위 )과 함께 ‘거리를 걷는 남자를 로우앵글로, 배경에는 네온사인 조명’이라는 문장(왼쪽 아래)을 입력한 결과(오른쪽)다.
사람이 입력한 사진을 동영상으로 만드는 능력, 원본 동영상의 피사체와 배경에 임의의 사진을 합성해 새로운 동영상을 만드는 능력도 갖췄다. 위 예제 사진은 현실 세계에서 남성이 춤을 추는 동영상(왼쪽)에 게임 속 캐릭터의 사진(가운데)을 합성, 동영상의 느낌을 게임처럼 바꾼(오른쪽) 사례다.
문장을 입력해서 동영상 속 피사체의 일부 요소만 제거하거나 수정하는 것, 동영상의 느낌을 실사나 애니메이션 화풍으로 조절하는 것도 가능하다. 위 예제 사진은 개가 산책하는 동영상(왼쪽 위)에 ‘흰 털에 검은 반점이 있는 개’라는 문장(왼쪽 아래)을 입력해서 동영상 속 개의 모습을 바꾼 사례(오른쪽)다. 기초 수준의 3D 모델링을 실제 피사체처럼 바꿔 동영상으로 만드는 능력도 가졌다. 런웨이의 연구 블로그에서 위 사례들의 동영상을 확인 가능하다.
아직 한계는 있다. 런웨이 GEN-2로 만든 동영상은 해상도와 선명도가 낮고 프레임 수도 적다. 그래서 화면 속 피사체의 모습은 거칠고 움직임도 뚝뚝 끊기는 듯한 모습을 보인다. 동영상 결과물의 길이도 아직은 4초 남짓으로 짧다.
하지만, 런웨이는 2022년 9월 이 기술의 개념을 공개한 후 불과 반 년여 만에 GEN-2를 선보였다. 사진이나 그림을 만드는 인공지능의 발전 속도를 고려하면, 이 기술 역시 단시간에 크게 발전해 실제 동영상 수준의 결과물을 만들 것으로 기대한다.
런웨이는 다중 모델 인공지능 기술을 더욱 고도화, GEN-2의 성능을 강화할 예정이라고 밝혔다. 단, 이 기술은 아직 일반 소비자나 기업이 임의로 활용할 수 없다.
글 / IT동아 차주경(racingcar@itdonga.com)