[생성 AI 길라잡이] 영상 생성 인공지능 서비스 '소라(Sora)' 써보니
※생성 인공지능이 세계를 뜨겁게 달굽니다. 사람만큼, 더러는 사람보다 더 그림을 잘 그리고 글을 잘 쓰는 생성 인공지능. 생성 인공지능을 설치하고 활용하는 방법과 최신 소식을 매주 전합니다.
[IT동아 강형석 기자] 인인공지능으로 산업 혁신을 이끈 기술 중 하나를 꼽자면 방대한 데이터를 미리 학습시키는 '생성형 사전 학습 트랜스포머(GPT - Generative pre-trained transformer)'가 아닐까 생각됩니다. 축적된 사전 학습 데이터를 활용해 사람이 원하는 결과를 제안하는 것으로 인공지능 기술의 토대가 됩니다. 이 중 오픈(Open)AI는 자체 개발한 대형 언어 모델(LLM)을 바탕으로 다양한 서비스를 제공 중입니다. ▲대화형 인공지능 서비스 '챗(Chat)GPT' ▲이미지 생성 인공지능 서비스 '달리(DALL-E)' 외에도 지금 소개할 영상 생성 인공지능 서비스 '소라(Sora)' 등이 대표적입니다.
지금은 다양한 인공지능 서비스 기업이 영상 생성 인공지능 서비스를 제공 중입니다. ▲런웨이(Runway)ML ▲피카(Pika) ▲핫샷(Hotshot) 등 종류만 수십 가지에 이릅니다. 하지만 영상 생성에 특화된 타 서비스와 달리, 소라는 생성 인공지능 서비스 플랫폼인 '오픈AI'의 다양한 서비스 중 하나로 제공되기 때문에 접근성이 좋다는 장점이 있습니다.
웹 브라우저를 활용해 소라에 접속하면 단순한 형태의 화면이 표시됩니다. 좌측에는 크리에이터들이 생성한 영상을 보거나 자신이 생성한 영상을 관리하는 메뉴가 배치됩니다. 화면 하단에는 영상 생성에 필요한 메뉴가 제공됩니다. 소라의 핵심이 되는 부분입니다. 우측 상단에는 ▲레이아웃 ▲화면비 ▲알람 등 간단한 기능 메뉴가 있습니다. 화면 중앙은 결과물을 보여줄 때 씁니다. 다만 처음 실행되면 '아래 작성기로 첫 영상을 만들거나 영감을 얻으려면 탐색(Explore)을 방문하라'고 표시되어 있습니다. 탐색(Explore)을 클릭하면 다양한 예제가 있는 화면으로 전환됩니다.
가장 중요한 하단 메뉴를 살펴보면 이렇습니다. 좌측에 있는 + 버튼은 ▲이미지 또는 영상 등록 ▲라이브러리에서 선택이 있습니다. 이미지 또는 영상 등록은 PC 내에 있는 ▲이미지 ▲영상을 등록해 영상을 만들 때 씁니다. 이어 라이브러리에서 선택 항목은 소라 내에 저장된 인공지능 생성 영상 중에서 선택 가능합니다. PC 내 이미지와 영상을 쓰기 전에 저작권 관련 동의 항목이 나오므로 신중히 선택하세요.
화면 모양의 아이콘을 클릭하면 사전 지정된 효과 선택 창이 나옵니다. ▲풍선 세상 ▲스톱모션 ▲아카이벌 ▲필름 누아르 ▲카드보드ㆍ종이공예 중에서 선택 가능합니다. 화면비는 ▲16:9 ▲1:1 ▲9:16 중에서 선택하면 됩니다.
해상도는 ▲480p ▲720p ▲1080p를 지원합니다. 하지만 월 20 달러인 챗GPT 플러스 요금제에서는 1080p 해상도 선택이 불가능합니다. 만약 고해상도 영상 생성에 관심이 있다면 월 200 달러인 챗GPT 프로 요금제를 써야 합니다. 요금제에 따른 영상 생성 시간도 다릅니다. 챗GPT 플러스 요금제는 ▲480p 해상도 최대 10초 ▲720p 해상도 최대 5초까지 생성 가능합니다. 제한을 해제하려면 챗GPT 프로 요금제에 가입해야 됩니다. 영상 생성 수에도 차이가 있습니다. 챗GPT 프로 요금제는 최대 2개까지 영상 생성을 지원합니다.
이제 소라로 영상을 생성해 볼 차례입니다. 겨울이니까 '아름답고 눈 덮인 서울을 걷다'라는 명령어를 입력해 보겠습니다. 설정은 ▲16:9 화면비 ▲720p 해상도 ▲영상 길이 5초 ▲영상 2개 생성을 기본으로 했습니다. 생성에는 약 3분 가량 소요됐습니다. 영상을 1개만 생성한다면 시간이 조금 더 단축됩니다. 다만 마음에 드는 영상이 나올 때까지 반복 실행해야 되는 번거로움이 있습니다. 토큰은 영상 1개당 60개가 필요합니다. 이어 같은 명령어로 영상 재생성을 요청하면 토큰 25개가 소모됩니다. 영어와 한국어로 영상을 생성한 결과, 토큰 소모에 차이는 없었습니다. 다만 챗GPT 플러스 요금제는 5초 이상 영상을 생성할 수 없어 챗GPT 프로 요금제로 영상 재생 시간을 길게 설정할 경우 더 많은 토큰이 쓰일 가능성은 남아 있습니다.
영상을 생성할 때에는 최대한 표현을 세분화하는 게 중요합니다. ▲영상의 전체 상황ㆍ환경 ▲카메라 각도와 이동 ▲영상 색감 등에 대한 표현이 세밀할수록 정확하고 고품질의 영상이 출력됩니다. 예를 들면 ▲눈 덮인 서울 도심은 사람들로 북적인다 ▲카메라는 필름 느낌으로 거리를 걷는 사람을 따라 지나간다 ▲눈송이가 바람을 타고 날아간다 등을 입력하면 최대한 반영되어 영상을 만들게 됩니다. 소라 외에 다른 영상 생성 서비스에서도 공통으로 필요한 부분입니다.
타 영상 생성 인공지능 서비스들이 영어만 지원하는 것과 달리 소라는 한국어 입력을 지원합니다. 실제 소라의 명령어 입력창에 '눈 내리는 서울 도심을 걷는 사람들. 로우 앵글의 카메라는 필름 감성으로 사람들을 따라간다'라는 언어를 입력하니 원하는 형태의 영상을 하나 생성합니다. 다른 영상 생성을 위해 여러 명령어를 입력해 보니 최대한 단어에 맞는 영상을 제안해 줍니다. 그러나 타 서비스에 비해 ▲사물의 형상 ▲화질 등 어색한 표현이 조금씩 보인다는 점은 아쉽습니다. 이 부분은 지속적인 학습으로 개선이 이뤄질 것으로 예상됩니다.
IT동아 강형석 기자 (redbk@itdonga.com)