“이것은 영상인가 게임인가” 구글 지니3가 보여준 파격 행보

강형석 redbk@itdonga.com

구글 딥마인드가 영상 내 상호작용이 가능한 생성 인공지능 기술, 지니3를 공개했다 / 출처=구글
구글 딥마인드가 영상 내 상호작용이 가능한 생성 인공지능 기술, 지니3를 공개했다 / 출처=구글

[IT동아 강형석 기자] 콘텐츠 생성 인공지능(AI)은 주로 사진(이미지)ㆍ영상 생성에 초점이 맞춰져 있다. 하지만 2025년 8월 5일, 구글 딥마인드가 공개한 '지니3(Genie3)'는 콘텐츠 생성 인공지능 기술의 새 이정표를 제시했다. 텍스트를 입력하면 마치 게임처럼 사용자가 직접 '경험'할 수 있는 상호작용 세계를 실시간으로 생성하기 때문이다.

지니3는 기술적 진보를 넘어 인공지능이 디지털 현실과 상호작용하는 방식에 대한 변화가 시작됐음을 보여준다. 사용자는 더 이상 인공지능이 생성한 결과물을 관람하는 관객이 아니라, 인공지능이 구축한 세계 안에서 능동적으로 행동하고 세계에 영향을 미치는 ‘플레이어(Player)’가 된다.

인공지능이 창조한 상상의 세계를 탐험하다

지니3는 '월드 모델(World Model)' 개념을 현실로 구현한 인공지능 모델이다. 월드 모델은 시각적 결과물 생성 외에 환경(식물ㆍ생물)과 물리 법칙, 상태 변화를 이해하는 인공지능을 의미한다. 지니3의 핵심은 텍스트 프롬프트로 상호작용 가능한 영상 또는 3D 환경을 생성하는 것이다. 사용자가 ‘화산 지대를 탐험하는 로봇’이나 ‘석양이 지는 해변’ 등 원하는 문장을 입력하면 인공지능이 가상 세계를 만든다.

인공지능이 생성한 세계를 키보드, 마우스 등을 활용해 자유롭게 둘러볼 수 있다 / 출처=구글
인공지능이 생성한 세계를 키보드, 마우스 등을 활용해 자유롭게 둘러볼 수 있다 / 출처=구글

콘텐츠는 최대 720p 해상도(1280 x 720)와 초당 24프레임(1초당 처리되는 이미지 수)으로 실시간 처리된다. 사용자는 키보드와 마우스 등 표준 입력 장치로 마치 비디오 게임 하듯 생성된 세계 속을 자유롭게 이동하고 상호작용할 수 있다. 지니3의 차별화된 기능은 '프롬프트 기반 월드 이벤트'다. 영상이 실행 중이어도 사용자는 새로운 텍스트(프롬프트) 명령을 입력해 변화를 줄 수 있다. 예로 길을 걷다가 명령어 입력으로 특정 물체를 소환하거나 돌발 상황을 만드는 식이다.

구글 지니3와 비오 등 콘텐츠 서비스 사양을 비교한 표 / 출처=IT동아
구글 지니3와 비오 등 콘텐츠 서비스 사양을 비교한 표 / 출처=IT동아

2024년 12월에 공개된 지니 2와 비교하면 지니3는 양적, 질적 모두 뚜렷한 차이를 보인다. 먼저 해상도다. 지니2는 최대 360p(640 x 360)의 해상도를 지원했는데, 지니3는 최대 720p(1280 x 720) 해상도로 콘텐츠를 만든다. 선명한 화질로 최적의 콘텐츠 경험이 가능하다. 빛(광원) 처리나 사물 처리도 자연스럽게 처리되도록 개선됐다.

재생 시간도 늘었다. 지니2는 이론적으로 최대 60초까지 재생 가능했지만 10초에서 20초 정도 지나면 생성된 세계가 무너지거나 환각(hallucination) 현상이 나타났다. 하지만 지니3는 1분 이상 재생해도 문제가 없다. 세계관 속에서 의미 있는 탐험과 상호작용이 가능한 수준이다.

콘텐츠 실행 중에도 프롬프트로 변화를 줄 수 있다는 게 지니3의 특징이다 / 출처=구글
콘텐츠 실행 중에도 프롬프트로 변화를 줄 수 있다는 게 지니3의 특징이다 / 출처=구글

개선이 필요한 점도 있다. 한 공간에서 상호작용한 내용을 기억하는 시간이 1분에 불과하다. 예로 특정 장소를 떠났다가 1분 뒤 다시 돌아오면 경험했던 변경 사항들이 초기화된다. 객체 영속성(object permanence) 제한은 콘텐츠 몰입도를 낮추는 요인으로 작용한다.

지니3가 비오3를 활용한 상호작용 콘텐츠라고 생각할 수 있다. 하지만 두 모델은 추구하는 방향이 다르다. 비오3는 텍스트, 이미지를 활용해 최대 4K 해상도 영상을 만든다. 생성 시간은 8초로 제한되지만 대화, 효과음, 주변음을 포함한 오디오 동기화를 지원한다. 반면, 지니3는 상호작용을 제외하면 해상도가 720p로 낮고 오디오 생성을 지원하지 않는다.

지니3의 핵심은 '게임'과 '영상 기술' 학습

지니3는 지시 가능한 확장형 다중세계 에이전트(SIMA - Scalable Instructable Multiworld Agent) 기술을 접목했다. SIMA는 다양한 가상 환경에서 인간의 자연어 명령을 이해하고 수행할 수 있는 범용 인공지능 에이전트다. 구글 딥마인드는 SIMA 기술 구현을 위해 헬로게임즈(Hello Games), 턱시도랩스(Tuxedo Labs) 등 8개 게임 개발사와 파트너십을 체결했다.

게임 개발사들은 내비게이션(길 찾기) 구조, 자원 채굴, 탈것 조종, 아이템 제작 등 다양한 상호작용 환경을 제공했다. 구글 딥마인드는 게임사 데이터 외에 유니티 엔진을 활용, 건설 연구실(Construction Lab)을 포함한 연구 환경을 구축했다. 에이전트는 연구 환경 내에서 블록으로 조형물을 만들며 물리적 세계에 대한 직관적 이해와 객체 조작 능력을 학습했다.

구글은 SIMA 기술을 활용해 지니3를 완성했다 / 출처=구글
구글은 SIMA 기술을 활용해 지니3를 완성했다 / 출처=구글

SIMA는 화면에 보이는 이미지와 사용자가 입력하는 자연어 명령 두 가지만 있으면 작동한다. 키보드와 마우스를 통해 게임 캐릭터를 조작하는 방식은 인간이 게임을 플레이하는 것과 동일하며, 이론적으로 모든 가상 환경과 상호작용 가능하다. 구글 딥마인드가 초기에 구현한 SIMA는 좌우로 돌기, 사다리 오르기, 지도 열기 등 600개 이상 상호작용 가능한 기본 기술을 수행할 수 있다. 각 작업은 약 10초 이내에 완료되는 수준이다.

구글은 다양한 게임을 활용해 SIMA 학습을 진행했다 / 출처=구글
구글은 다양한 게임을 활용해 SIMA 학습을 진행했다 / 출처=구글

SIMA는 ▲비전 언어 모델 SPARC(SPARse Context) ▲비디오 예측 모델 Phenaki ▲트랜스포머 모델 등을 결합했다. SPARC는 이미지와 텍스트를 정밀하게 정렬(alignment)하는 역할을 맡는다. 게임 화면의 시각적 정보와 사용자의 언어 지시를 연결하는 것이다. 예로 ‘사다리를 올라가’라고 지시하면 화면 속 어떤 화소(픽셀) 모음이 사다리에 해당하는지 이해하는 게 바로 SPARC의 역할이다.

Phenaki는 현재 화면 다음에 어떤 장면이 나타날지를 예측하는데 쓰인다. 공중에서 점프하면 아래로 떨어질 것이라 예측하고 행동의 결과를 미리 예상해 반영하는 기술이다. 이어 트랜스포머 기반 입출력 처리로 의사결정을 진행한다. 시각 정보, 인코딩된 언어 지시, 에이전트의 과거 행동 기록(메모리) 등을 종합적으로 입력 받아 키보드 및 마우스 조작 명령 구조를 생성한다.

SIMA는 단순한 인공지능 상호작용 콘텐츠가 아니라 협력형 인공지능 플랫폼에 가깝다. 사람의 의도를 이해하고 가상ㆍ현실 세계를 인식, 목표를 달성하는 것을 목표로 학습하기 때문이다.

지니3의 잠재력과 한계는?

지니3의 활용 가능성은 매우 광범위하다. 구글 딥마인드는 가상현실과 로보틱스 등 다양한 시장에 주목하고 있다. 상상한 세계를 즉시 구현하고 상호작용까지 가능하므로 게임, 체감형 영화 제작 등 콘텐츠 제작 분야에 혁신을 가져올 수 있다. 로봇공학(휴머노이드)과 자율주행 시스템 개발에서는 직접적인 효과가 기대된다. 지니3가 생성한 다양한 환경에서 로봇과 자율주행차를 훈련하면서 기술 완성도를 평가하고 약점을 파악하는 테스트 베드로 활용 가능하기 때문이다.

한계도 있다. 현재 에이전트가 직접 수행하는 행동의 범위가 제한적이고 복잡한 상호작용이 어렵다. 실제 지리적 위치를 완벽하게 재현하는 것도 불가능하며 문자(프롬프트) 처리 정확도도 개선 요소다. 콘텐츠 재생 수준도 몇 분 정도에 불과해 시간 단위 콘텐츠를 구현하려면 더 많은 연구개발이 필요하다.

지니3는 소수의 학계 연구자와 크리에이터들에게만 제한적으로 접근을 허용하는 연구 프리뷰 단계로 운영하고 있다. 어떤 환경이든 생성 가능하기 때문에 기술이 대중에게 노출될 경우 문제를 일으킬 가능성도 있기 때문이다. 구글 딥마인드는 연구 프리뷰 단계 과정에서 드러난 여러 피드백을 수집하고 위험도를 평가하면서 윤리 문제에 대응한다는 방침이다.

IT동아 강형석 기자 (redbk@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.