[생성 AI 길라잡이] 영상에 오디오까지 인공지능이 알아서 다 해주는 구글 플로우
※생성 인공지능이 세계를 뜨겁게 달굽니다. 사람만큼, 더러는 사람보다 더 그림을 잘 그리고 글을 잘 쓰는 생성 인공지능. 생성 인공지능을 설치하고 활용하는 방법과 최신 소식을 매주 전합니다.
[IT동아 강형석 기자] 인공지능(AI) 학습, 추론 성능이 빠르게 향상되면서 관련 서비스의 완성도도 눈에 띄게 개선되고 있습니다. 원하는 자료를 찾아 정리해주는 것은 기본이고 독특한 이미지ㆍ영상 제작도 도와줍니다. 챗봇은 자연스러운 대화가 가능한 수준에 이르렀습니다. 이렇게 인공지능은 우리 일상과 업무 전반에 걸쳐 도움을 주고 있지만, 경험 측면에서 강한 인상을 주는 서비스는 이미지ㆍ영상 제작 분야가 아닐까 생각됩니다. 문자 위주의 서비스보다 눈에 띄는 시각적 결과물을 제안하기 때문이죠.
인공지능 영상 생성 서비스는 다양합니다. 오픈AI(OpenAI)가 공개한 소라(Sora), 런웨이ML(RunwayML), 핫샷(Hotshot), 루마AI의 드림머신(Dream Machine) 등이 대표적입니다. 여기에 구글 딥마인드(Google DeepMind)가 공개한 플로우(Flow)까지 합류하며 서비스 선택지가 확대됐습니다.
구글 플로우는 비오(Veo)라는 모델을 써 영상을 만듭니다. 비오는 2024년 5월, 구글 I/O에서 공개된 이후 꾸준히 업데이트가 진행됐습니다. 현재는 3세대 서비스가 제공 중입니다. 3세대 서비스를 쓰려면 월 36만 원인 ‘구글 AI 울트라(Google AI Ultra)’ 요금제에 가입해야 될 것 같지만 아닙니다. 월 2만 9000원 요금제로 가입 가능한 ‘구글 AI 프로(Google AI Pro)’ 요금제로도 3세대 비오 모델이 제공됩니다.
일반 무료 계정으로 비오 모델 사용이 불가능한 점은 참고할 부분입니다. 구글은 이 부분을 감안했는지 처음 이용자에게 구글 AI 프로 요금제 1개월 무료 가입을 지원하고 있으니 관심이 있다면 시도해 보세요. 첫 결제가 필요하지만 사용 후 원치 않으면 결제 취소 가능합니다.
영상과 음성까지 생성 가능한 '비오 3' 모델 적용
구글의 인공지능 영상 생성 서비스는 ‘플로우(Flow)’에서 사용 가능합니다. 제미나이(Gemini)에서도 영상 생성을 지원합니다. 제미나이에서 동영상을 선택하면 비오 3 모델로 영상 생성이 됩니다. PC 브라우저와 모바일 기기용 제미나이 앱에서도 비오 사용이 가능한 부분은 장점입니다.
구글 플로우에서 영상을 생성하는 방법은 간단합니다. 다른 영상 생성 서비스와 마찬가지로 새로운 프로젝트를 만든 후 프롬프트(명령어 입력 창)에 문자를 넣는 식이니까요. 제미나이에서는 하단에 있는 프롬프트 중 ‘동영상’ 아이콘을 클릭하면 바로 영상 생성 준비를 마칩니다. 동영상 아이콘을 클릭하면 ‘제미나이에게 물어보기’가 ‘동영상을 설명하세요’로 바뀌니 확인 후 영상 생성을 진행하면 됩니다.
다시 플로우에서 프로젝트 생성을 진행하면 영상 생성을 위한 구성으로 전환됩니다. 인터페이스는 매우 단순한데요. 모든 작업은 하단에 있는 프롬프트에서 시작됩니다. 프롬프트 우측 상단에는 영상 생성 방식을 선택할 수 있습니다. 텍스트를 입력해 영상을 만들거나 이미지ㆍ영상 샘플 등을 활용해도 됩니다. 애셋으로 영상을 만드는 기능은 구글 AI 울트라 요금제에서만 지원합니다. 애셋은 여러 자료를 인공지능이 분석한 후 영상을 생성하는 고급 기능입니다.
세부 설정은 프롬프트 우측 상단에 있는 설정 아이콘을 클릭하면 됩니다. ‘프롬프트당 출력’은 영상 생성 시 몇 개를 동시에 만들지 결정하는 기능입니다. 1개~4개 사이에서 설정 가능합니다. 화질 설정은 고속(Fast), 품질(Quality), 실험적 오디오가 포함된 고품질(High Quality + Experimental Audio) 등 3가지가 제공됩니다. 고품질은 비오 3, 나머지는 비오 2 모델을 써 영상을 만듭니다. 고급 기능을 경험하고 싶다면 비오 3 모델을 사용하는 고품질을 선택하세요.
선택한 영상 품질에 따라 소모되는 크레딧도 다릅니다. 고속 생성은 10 크레딧, 나머지는 100 크레딧을 소모합니다. 구글 AI 프로 요금제는 월 1000 크레딧이 제공되는데, 품질 이상을 선택하면 매월 10개씩 영상 생성이 가능하니 신중하게 프롬프트를 입력하세요.
영상 품질은 기본, 흥미로운 부분은 오디오 생성
이제 구글 플로우를 활용해 영상을 생성해 볼 차례입니다. 예시로 ‘커피숍에서 편안한 음악을 들으며 창밖의 거리를 바라보는 사람의 모습을 감성적인 분위기로 만들어줘’라고 입력해 보겠습니다. 인공지능으로 영상을 생성할 때는 구체적인 상황과 배경, 분위기 등을 최대한 상세히 적어주면 최적의 결과를 낼 수 있습니다. 카메라의 움직임, 구도나 시점을 더해도 좋습니다.
프롬프트에 명령어를 입력한 후 영상 하나를 완성하는 데 약 1분 정도 소요됐습니다. 8초 정도의 결과물을 보니 프롬프트에 입력한대로 한 여성이 창밖을 바라보고 있습니다. 그 앞으로 사람들이 자연스레 지나가는 모습도 보입니다. 감성적인 분위기를 만들어 달라고 요청하니 인공지능이 비 오는 풍경을 선택한 것 같습니다. 흥미로운 부분은 오디오입니다. 영상을 재생하면 잔잔한 음악이 함께 출력됩니다. 영상 분위기와 잘 어울립니다.
구글 플로우만 쓰기 아까워 이번에는 오픈AI의 영상 생성 서비스인 소라에 같은 명령어를 입력한 후 영상을 생성했습니다. 기본 요금제로 생성된 5초 영상을 보면 소라도 플로우와 비슷한 흐름을 보여줍니다. 커피숍 안에 앉은 한 여성이 창밖을 바라보고 있는데요. 정적인 구도의 플로우와 달리 소라는 카메라가 여성 주변을 도는 동적인 결과물을 제안했습니다. 물론 생성할 때마다 결과물은 다르게 출력되므로 어떤 서비스가 무조건 좋다고 단언할 수 없습니다.
영상 자체만 놓고 보면 두 서비스의 화면비가 다릅니다. 비오는 화면 상하단의 검은띠(레터박스) 면적이 넓고, 소라는 상대적으로 면적이 좁은 게 눈에 띕니다. 플로우는 화면비 21:9에 가깝고, 소라는 16:9에 맞춰 생성된 것으로 추측됩니다. 화질 자체는 두 서비스 모두 뛰어나 큰 차이를 느끼지 못했습니다. 해상도는 HD(720p)가 기본입니다.
결과물을 내려 받을 때 소위 움짤이라고 부르는 GIF 형식 파일 혹은 MP4 형식 영상을 선택할 수 있습니다. GIF 파일은 480p, 영상은 720p로 제공됩니다. 플로우는 추가로 풀HD(1080p)로 해상도를 확장한 업스케일링(Upscaling) 방식 저장도 지원합니다.
구글 플로우는 이미지, 텍스트, 영상 샘플 등을 활용해 쉽게 영상 제작이 가능한 생성형 인공지능 서비스입니다. 뛰어난 품질에 오디오까지 생성해주는 부분은 차별화된 부분입니다. 간단한 숏츠 형태의 영상을 만들고 싶다면 구글 플로우가 더 유리해 보입니다. 오디오에 대한 걱정까지 덜어주기 때문입니다. 하지만 한글 인식이 안 된다는 점은 아쉬움으로 남습니다. 소라, 런웨이ML 등 일부 영상 생성 서비스는 한글 인식을 지원하니 영어 명령어 입력이 부담된다면 다른 서비스를 선택할 수밖에 없습니다. 언어 지원은 추후 구글이 개선해 줄 것으로 예상됩니다.
IT동아 강형석 기자 (redbk@itdonga.com)