LG AI연구원, 이미지를 문장으로 변환하는 AI 공개[AWS 리인벤트 2023]

남시현 sh@itdonga.com

[IT동아 남시현 기자] LG그룹의 인공지능 연구 허브인 LGAI 연구원이 AWS 리인벤트 2023에서 이미지를 텍스트로 전환하는 인공지능 기술을 선보인다. 또한 엑사원 2.0을 추후 아마존 베드록으로 마이그레이션(전환)하는 등 인공지능 분야에서 다각적으로 협력한다. 그간 프롬프트(명령어)를 입력해 텍스트를 메시지로 만들거나, 텍스트를 동영상으로 만드는 기술 등을 선보인 사례는 많지만, 이번 기술은 상업 및 기업용 용도로 이미지를 텍스트로 전환하는 기술이라는 점에서 차이가 있다.

새로운 인공지능 기술은 3천억 개의 매개변수를 갖춘 LG AI연구원의 멀티모달 기반 모델인 엑사원(EXAONE)을 활용하며, 인간의 인지 능력과 유사하게 이전의 경험과 지식, 훈련을 바탕으로 본 적 없는 객체나 장면을 자동으로 이해하고 설명한다. 사람이 어떤 이미지를 능동적으로 설명하고 소개하는 것과 유사한 개념으로 설명한다.

LG AI연구원이 만든 이미지 투 텍스트를 사용해 사진을 문장으로 변환한 결과 / 출처=LG AI연구원
LG AI연구원이 만든 이미지 투 텍스트를 사용해 사진을 문장으로 변환한 결과 / 출처=LG AI연구원

동작 환경은 한국어와 영어로 된 이미지와 텍스트를 이해하며, 이를 실현하기 위해 LG AI연구원은 AWS의 완전관리형 AI 서비스인 세이지메이커를 사용해 약 3억 5천만 개의 고해상도 이미지와 텍스트를 학습시켰다. LG AI 연구원은 지난 2022년 CVPR(컴퓨터 비전과 패턴 인식 콘퍼런스)에서 해당 기능을 처음 선보였으며, 1년 간 완성도와 상업성을 가다듬어 아마존 세이지메이커 점프스타트를 통해 제공하게 됐다.

이미지 텍스트화, 언어의 장벽 넘는 도구 될까

도입 배경에 대해 이화영 LG AI연구원 상무는 “미국에서는 장애를 이유로 하는 차별을 명확하고 포괄적으로 금지하기 위한 법률이 있다. 따라서 시각 장애인이 사내 자산인 이미지 등을 구분할 수 없으면 권리 보호를 위해 폐기해야 한다. 이런 경우에 이미지를 텍스트로 만드는 기술을 도입하면 애써 만든 자산을 폐기하지 않고 계속 사용할 수 있다”라면서, “기업에 따라 다르지만 최대 수백만 달러까지 비용을 절감할 수 있다는 예측이 나오고 있다”라고 덧붙였다.

미국 네바다 주 라스베이거스에서 열리는 AWS 리인벤트 특성상, 인터뷰는 화상 회의로 진행됐다 / 출처=IT동아
미국 네바다 주 라스베이거스에서 열리는 AWS 리인벤트 특성상, 인터뷰는 화상 회의로 진행됐다 / 출처=IT동아

이어서 “LG전자만 하더라도 전 세계에 100개가 넘는 법인이 있다. 각 법인에서는 사진 등의 결과물을 라이브러리로 보관하는데, 언어 체계가 다르다 보니 데이터를 공유하고 확인하는데 한계가 있다. 이 기술을 활용하면 언어가 다르더라도 비교적 쉽게 타 법인의 자산을 확인할 수 있어서 전반적인 콘텐츠 비용도 낮출 수 있다”고 덧붙였다.

그렇다면 GPT처럼 이미지를 설명해 주는 기존 AI와는 어떻게 다를까. 이화영 상무는 “GPT의 경우 이미지를 장황하고 세부적으로 설명하지만, 시간이나 속도 측면에서 느리고 또 틀린 내용도 유입된다”라면서, “반면 이미지 투 텍스트 변환 솔루션은 특수 목적으로 용도를 지정할 수 있고, 장애인이 이해하기 쉬운 용어들을 쓴다. 또 여러 번 생성해 정확도 순위를 매기는 식으로 품질을 높이는 알고리즘이 적용돼 환각 현상도 적다”라고 설명했다.


아마존 세이지메이커 점프스타트에 업로드돼있는 이미지 투 텍스트 모델 / 출처=AWS
아마존 세이지메이커 점프스타트에 업로드돼있는 이미지 투 텍스트 모델 / 출처=AWS

소비재기업, 마케팅 에이전시 등 LG AI연구원의 고객사는 AWS의 확장성을 활용해 시간당 최대 2000장의 이미지에 설명글을 달 수 있으며, 또 현장에서 별도로 고도화 작업을 거치지 않고 그대로 사용할 수 있다. 이화영 상무는 “이미 건설 현장 안전점검용 드론으로 촬영한 이미지를 텍스트로 변환해 문제점을 확인한다거나, 장애물이 확인되는 등의 용도로 쓸 수 있음을 확인했다”라는 설명을 추가했다.

AWS와의 협업, 더 큰 그림 그리는 LG AI연구원

마지막으로 이화영 상무는 앞으로 AWS와 더 많은 부분에서 협력할 뜻을 내비쳤다. 이화영 상무는 “AWS의 인공지능 생태계는 사용자 중심적이다. 세이지메이커만 하더라도 학습부터 배포까지 일괄로 편리하게 작업할 수 있다. 이런 시각은 LG그룹이 추구하는 바와 뜻이 맞기 때문에 앞으로도 협력할 예정이다”라면서, “추후에는 엑사원 2.0을 아마존 베드록으로 마이그레이션하고, LG 계열사뿐만 아니라 B2B 파트너사들도 같이 쓰는 방식 등에 대해서도 고려하는 중”이라고 말했다.

글 / IT동아 남시현 (sh@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.