[생성 AI 길라잡이] GPT-4o 이미지 생성은 왜 새삼스레 주목받는가?
[IT동아 남시현 기자] 지난 3월 25일 출시된 오픈AI의 GPT-4o 이미지 생성 기능이 전 세계적인 반향을 일으키고 있다. 지금까지 오픈AI의 생성형 AI로 제공되는 이미지 기능은 2023년 9월 출시된 DALl-E3를 기반으로 했는데, 이번에 출시된 버전은 GPT-4o의 멀티모달 기능을 활용한 새로운 버전이다. 멀티모달은 텍스트, 이미지, 음성, 비디오 등 다양한 유형의 데이터를 복합적으로 조합해 인식 및 활용하는 인공지능 처리 방식이다.
지금까지 활용된 DALL-E3는 문장을 입력하면 인공지능이 이를 인식해 이미지로 변환하는 형태였다. 텍스트로만 이미지를 구상하다 보니 원하는 구도나 이미지 형태, 스타일 등을 원한다면 세세하고 구체적으로 하나하나 건드려야 했다. 이미지를 이미지로 전환하거나 인식하는 능력도 부족했고, 이미지 구축 중 환각 현상이나 프랙털 등 초현실적인 느낌도 개입했다. 상업적 이용까지는 어렵고, 작례를 생성하는 수준에 가까웠다. 이런 한계를 해결한 버전이 이번에 공개된 GPT-4o 이미지 생성 기능이다.
비로소 이미지를 이미지로 해석하는 ‘생성형 AI’의 등장
GPT-4o 이미지 생성 기능은 지금까지 생각한 이미지 생성형 AI에 가장 부합하는 모델이다. 텍스트로 이미지를 생성하는 기본적인 원리도 그 성능이 크게 향상됐고, 문자를 가능한 왜곡 없이 이미지화하는 것은 물론, 액자식 구성이나 네 컷 만화 등 장치적 구성까지 만들 수 있다. 이미지를 입력해 이미지를 생성할 수도 있고, 세세하게 설명하지 않더라도 자체 분석 후 추가로 제안하거나 결과를 낸다. 알아서 잘 만들어준다는 소문이 돌면서 전 세계적으로 ‘지브리 스타일’이 유행하고 있다.
새로운 GPT-4o 이미지는 여러 모델 중 GPT-4o에서만 사용할 수 있으며, 유료 사용자인 플러스, 팀 및 프로는 물론 무료 사용자에게도 열려있다. 다만 무료 사용자는 매일 최소 3개의 이미지만 생성할 수 있으며, 유료 모델과 비교해 생성 속도가 제한되기도 한다. GPT 엔터프라이즈 및 에듀케이션 구독자에게는 제공되지 않는다.
생성 방법은 GPT 사용 창에서 ‘이미지 그리기’를 누르고 명령하거나 이미지를 제공하는 것으로 시작한다. 지침의 복합성과 네트워크 상황에 따라 최대 2분 정도 소요된다. 이때 명령은 본인이 그리고 싶은 이미지를 상상해서 메시지로 입력하면 되고, 원하는 이미지의 색감이나 구도, 형태, 스타일 및 화풍까지 세세하게 명령을 내릴 수 있다. 완성된 이미지를 기반으로 부분 수정할 수도 있다.
다만 모든 화풍이나 그림 방식을 사용할 수 있는 건 아니다. 법적으로 저작권은 작품에 통용되는 것이고, 화풍까지 보호하진 않는다. 오픈AI측에 스타일에 대한 보호 요청을 신청했거나, 자체적으로 보호가 필요한 경우에 한해서만 보호한다. 다만 저작권이 소멸된 공공 도메인을 보호하는 경우도 있다.
지난해 일본 문화청이 발간한 ‘인공지능과 저작권에 대한 고찰’ 보고서에 따르면 ‘작풍, 화풍은 아이디어가 유사한 것이고, 기존 저작물과 직접적인 유사성이 인식되지 않는 생성물은 저작권 침해는 아니다’라는 해석을 내놓은 바 있으므로 한정된 용도에서 쓰는 것은 큰 문제가 되지 않는다. 다만 특정 스타일로 생성된 이미지를 상업적 용도로 사용하는 것은 저작권법 위반에 해당한다.
앞서 AI들과 달리 이미지 자체의 인식 및 대체 성능 모두 크게 향상됐다. 특정 이미지를 넣고 변경을 요청하면 자동으로 이미지를 분석한 뒤 최적의 변경 요건까지 알아서 제시한다. 예를 들어 인텔 제온 프로세서 이미지를 넣고 ‘AMD로 변경’ 정도만 넣어도 AMD의 동급 CPU 제품과 해당 제품의 로고까지 알아서 찾아와 이미지를 합성한다. 그래프나 간판, 책자, 디지털 문서 등의 문자도 변환하거나 번역된 이미지로 제공하며, 완성된 이미지를 세세하게 추가 수정할 수 있다. 사용자가 응용하기에 따라 활용 범위가 무궁무진하다.
전송된 이미지, 오픈AI의 데이터 학습 용도로 사용돼
하지만 GPT-4o의 이미지 제공 기능 역시 다른 여타의 AI 기능들과 마찬가지로 데이터를 수집한다. 오픈AI의 개인정보 보호정책을 살펴보면 사용자가 입력하는 프롬프트와 파일, 업로드하는 콘텐츠는 물론 사용 시간대와 컴퓨터 또는 모바일 기기 종류, 연결 정보, 기기 정보, 위치 정보까지 복합적으로 수집한다. 즉 생성형 AI를 위해 보낸 이미지는 오픈AI가 학습 용도로 쓴다는 의미다.
만약 서버로 전송한 이미지가 학습 용도로 사용되는 것을 원치 않는다면 GPT 채팅 창 우측 상단에 있는 설정에서 데이터 제어, 모두를 위한 모델 개선을 끄고 완료를 누르면 수집 용도로 제공되지 않는다.
AI 활용도 높일 것 VS 진실을 구분하기 어려운 시대 될 것
GPT-4o 이미지가 주목받는 이유는 이전의 그 어떤 AI보다도 사용자 활용도가 높기 때문이다. 구글 제미나이가 1월 공개한 AI 이미젠 3나 메타의 이미지 생성 AI와 비교해 완성도는 큰 차이가 나지 않더라도, 원하는 이미지를 만들고 학습시키기가 대단히 편리하다. 이미지를 입력하고 해당 이미지를 즉시 학습해 새 이미지를 내놓는 게 이번 변화의 핵심이고, 생산성을 한층 더 끌어올릴 수 있게 됐다.
그럼에도 불구하고 GPT-4o의 생성형 이미지는 AI 업계에 이롭게 작용하지만은 않는다. 긍정적인 측면에서는 이미지 생성의 신기원을 개척했고 누구나 원하는 대로 마법처럼 이미지를 바꿀 수 있게 됐다. 하지만 저작물 이미지에 대한 중대한 저작권 침해로 이어질 수 있으며, 가짜 뉴스 생성 등으로 오용될 수 있다. 완성도가 높아질수록 이익과 손해 모두 커지는 기술이다. 국가와 기업들 간의 적절한 가이드라인 구상이 필요하며, 무분별한 생성으로 인한 피해를 막기 위한 노력이 요구되는 시점이다.
IT동아 남시현 기자 (sh@itdonga.com)