[스타트업-ing] 클레온 “AWS 인퍼런시아로 GPU 서버 비용 50% 줄였어요”
[IT동아 한만혁 기자] 생성형 인공지능(AI)이 주목받으면서 다양한 스타트업이 AI 기반 솔루션을 선보이고 있다. 새로운 시장을 개척하면서 글로벌 기업과 투자자의 주목을 끄는 곳도 적지 않다. 하지만 이들은 막대한 GPU 서버 비용을 감당해야 한다는 부담을 안고 있다. AI 솔루션 개발 이후에도 최적화, 경량화 작업에 많은 노력을 기울이는 이유다.
디지털 휴먼을 통해 소통의 경험을 개선하고 있는 클레온 역시 GPU 서버 비용에 부담을 느끼고 있는 스타트업 중 하나다. 클레온은 한 장의 사진과 30초 분량의 목소리로 디지털 휴먼 영상을 제작하는 클론, 디지털 휴먼과 자유롭게 대화하는 챗아바타 등의 서비스를 제공하고 있으며, 보다 많은 사람에게 디지털 휴먼 서비스를 제공하기 위해 노력하고 있다.
GPU 서버 비용 절감을 위해 고민하던 클레온은 최근 아마존웹서비스 인퍼런시아(AWS Inferentia)를 도입했다. 인퍼런시아는 딥러닝 추론 애플리케이션에 필요한 고성능을 최저 비용으로 제공하도록 설계된 AI 칩이다. 덕분에 클레온은 디지털 휴먼 생성 모델 추론 비용을 50% 절감했다.
클레온에서 인퍼런시아 도입을 담당했던 조대양 프로덕트AI팀장을 만나 좀 더 자세한 이야기를 나눴다.
디지털 휴먼으로 소통의 혁신 이룬다
IT동아: 안녕하세요, 조대양 팀장님. 우선 팀장님 소개 부탁드립니다.
조대양 팀장: 안녕하세요, 클레온에서 프로덕트 AI팀을 맡고 있는 조대양입니다. 저는 카이스트에서 박사 과정을 밟으면서 네트워크 시스템 고도화 연구를 하고 있었는데요. 동료, 선배의 권유로 디지털 휴먼 상용화에 기여하고자 클레온에 합류하게 되었습니다.
언뜻 보면 기존에 연구하던 분야와 차이가 있는 것 같지만 사실 딥러닝도 GPU라는 하드웨어에서 돌아갑니다. 제가 연구하던 것이 네트워크 시스템을 최적화하고 하드웨어의 로우 레벨 코드를 개발하는 작업이어서 원리는 비슷해요. 어느 정도 연관성은 있죠.
IT동아: 현재 클레온에서 프로덕트 AI 팀장을 맡고 있는데요. 어떤 일을 하는 팀인가요?
조대양 팀장: 클레온에는 R&D테크센터가 있고 그 안에 프로덕트 AI팀과 퓨처AI팀, 백엔드팀이 있습니다. 퓨처AI팀은 새로운 AI 기술을 연구하고, 프로덕트AI팀은 퓨처AI팀의 성과나 실제 서비스에 적용할 수 있는 기술을 찾아 고도화하는 역할을 합니다. 백엔드팀은 프로덕트AI팀이 고도화한 딥러닝 모델을 서비스에서 사용할 수 있도록 연동하고요. 그러니까 저희 팀은 주로 딥러닝 모델 연구, 솔루션 경량화, 데이터를 통한 모델 성능 개선 등의 업무를 하고 있습니다.
IT동아: 클레온에 대해서도 말씀 부탁드립니다.
조대양 팀장: 클레온은 디지털 휴먼을 통해 소통의 혁신을 이루고자 합니다. 기존의 소통은 대면이나 전화, 온라인, 화상회의 등을 통해 이뤄지는데 여기에는 시간적, 공간적, 언어적 한계가 있습니다. 저희는 디지털 휴먼을 통해 깨어 있을 때뿐 아니라 잠든 시간에도 소통하고, 자동 통역을 통해 언어에 구애받지 않고 소통하는 등 물리적인 장벽을 허물고 언제 어디서나 쉽고 빠르게 소통하는 세상을 만들고자 합니다.
이를 위해 현재 클론, 챗아바타, 클링 서비스를 출시했습니다. 클론은 한 장의 사진과 목소리로 디지털 휴먼을 생성하는 서비스입니다. 원하는 메시지를 텍스트로 전송하면 디지털 휴먼이 말하는 방식입니다.
챗아바타는 다양한 컨셉의 디지털 휴먼과 언제든지 대화할 수 있는 서비스입니다. 클론과 달리 실시간 대화형 서비스에요. 아바타에게 질문하면 바로 답변을 들을 수 있죠. 클링은 더빙 언어에 따른 입 모양을 생성하는 서비스입니다.
IT동아: 이들 서비스를 위해 클레온이 구축한 기술은 무엇인가요?
조대양 팀장: 디지털 휴먼을 만들기 위해서는 얼굴, 입 모양, 전신, 감정 등 다양한 측면에서 딥러닝 모델을 활용해야 합니다. 저희는 원하는 대상의 전체 두상을 가져오는 헤드스와프(HeadSwap) 기술을 보유하고 있습니다. 기존에는 눈, 코, 입에 국한되는 페이스스와프(FaceSwap) 기술만 있었는데 지금은 머리카락, 얼굴 크기 등 머리 전체를 가져옵니다.
또한 음성에 맞춰 입 모양을 만드는 립싱크 생성 기술, 옷을 포함하여 몸 전신을 만드는 풀보디(Full Body) 생성 기술을 개발했습니다. 30초 정도 분량 목소리만 있으면 어떤 텍스트를 입력하든 그 목소리로 읽어주는 일종의 TTS 기술도 보유하고 있어요. 현재 5개 언어를 지원하고 있는데요. 지속적으로 추가할 예정입니다. 딥러닝 모델 경량화 또한 저희의 강점입니다. 덕분에 디지털 휴먼을 상대적으로 저렴한 비용에 서비스할 수 있어요.
GPU 서버 비용 절감 위한 선택
IT동아: 클레온은 최근에 AWS 인퍼런시아를 도입했습니다. 도입하게 된 계기가 있나요?
조대양 팀장: 저희는 AWS가 제공하는 엔비디아 GPU 서버 EC2 G4dn을 사용했습니다. 성능이나 개발 환경은 충분히 만족스러웠어요. 하지만 비용 부담이 컸습니다. GPU 서버 비용이 다른 서버에 비해 압도적으로 높아요. 전체 비용의 70~80%를 차지할 때도 있습니다. 오픈AI가 챗GPT를 운영하는데 하루 70만 달러(약 9억 2771만 원)가 든다는 기사도 있죠. 대부분의 기업이 솔루션 개발 이후 최적화, 경량화하는 이유 중의 하나가 GPU 서버 비용을 줄이기 위함이에요.
특히 저희는 보다 많은 고객에게 서비스를 제공하는 것이 목표이다 보니 아무래도 GPU 서버 비용 절감이 절실한 상황이었어요. 그래서 고민하고 있었는데 AWS의 저희 전담 어카운트 매니저가 성능은 비슷한데 GPU 서버 비용을 줄일 수 있다면서 인퍼런시아를 추천하더라고요. 그래서 도입을 결정했습니다.
IT동아: 실제로 도입해 보니 어떤가요? 비용 절감 효과를 보셨나요?
조대양 팀장: 지난해 9월부터 시작해 약 두 달간 작업했습니다. 사실 한 달이면 될 줄 알았는데 다른 업무와 병행하기도 했고 예기치 못한 오류들이 좀 있어서 예상보다 오래 걸렸어요. 물론 다른 기업의 솔루션을 적용했다면 더 오래 걸렸을 거에요. AWS의 경우 문서화도 잘 되어 있고 질문을 올리면 AWS 본사나 한국의 솔루션 아키텍처(SA)가 빠르게 대응해서 좀 수월했습니다.
성능 부분에서는 기존 환경과 유사합니다. 설계 방식이 다르긴 하지만 사양이나 최대 성능은 거의 동일하거든요. 실무자 입장에서는 별다른 차이를 못 느끼고 있습니다. 그럼에도 GPU 서버 비용은 거의 절반 수준으로 낮아졌어요. 사실 GPU 서버 비용은 워낙 액수가 크다 보니 10~20%만 줄여도 굉장한 혜택이거든요.
저희가 계산해 보니 인퍼런시아 Inf1.xlarge 사용 시 g4dn.xlarge 대비 39.32%, Inf1.6xlarge 사용 시 g4dn.12xlarge 대비 59.78%의 비용 절감 효과가 있더라고요. 회사 입장에서는 엄청난 장점이죠.
IT동아: 비용 절감 효과는 확실하네요. 그런데 도입 과정에서 오류가 좀 있었다고 하셨는데요. 어떤 오류였나요?
조대양 팀장: 사실 저는 그전부터 인퍼런시아에 대해 알고 있었어요. 비용을 획기적으로 줄인다는 장점도 들었고요. 그런데 정작 실제 적용 사례는 많지 않더라고요. 도입을 검토하면서 기존 사례들을 좀 찾아봤는데 도입 과정보다는 결과에 대한 이야기가 많았어요. 그래서 도입 과정이 간단할 거라고 예상했죠.
그런데 실제로 해보니 오류가 좀 나오더라고요. 그런데 에러 메시지가 명확하지 않았어요. 에러 위치가 ‘unknown(알 수 없음)’으로 나오기도 했고요. 해결하고 보니 그렇게 어려운 문제는 아닌데 에러 메시지가 정확하지 않아서 조금 더 세밀하게 살펴보고 이런저런 시도를 해야 하죠. 아무래도 딥러닝 분야의 발전 속도가 너무 빠르고 사용 사례가 천차만별이라 세세한 부분까지 구현되지 않은 것 같더라고요.
물론 AWS의 도움도 받았습니다. AWS와 소통하는 채널이 있는데, 그곳을 통해 증상이나 오류에 대해 문의하면 AWS 인퍼런시아 개발팀이나 국내 SA팀이 실제 내부에서 테스트해 보고 빠르게 회신을 주더라고요. 덕분에 수월하게 해결책을 찾기도 했습니다. 그리고 저희가 먼저 문의하지 않아도 국내 SA팀이 수시로 연락해 좀 더 잘 활용할 수 있는 팁이나 조언을 주기도 했어요. 많은 도움이 되었습니다.
IT동아: 말씀을 들어보니 인퍼런시아에 대해 전반적으로 만족하고 있는 것 같습니다. 그러면 다른 스타트업에도 추천할 만한가요?
조대양 팀장: GPU 서버 비용 이슈는 AI를 활용하는 모든 기업이 공통으로 느끼는 부분입니다. 저는 인퍼런시아가 그 기업 모두에게 적합한 솔루션이라고 생각합니다. 특히 AWS G4dn을 사용하는 기업에게 추천하고 싶어요. 물론 저희처럼 도입 과정에서 오류가 나올 수도 있어요. 하지만 그것을 잘 풀어가면 그 이후에는 엄청난 비용 절감 효과를 경험할 수 있을 것입니다. 저희도 새로 개발하는 추론 서버에 인퍼런시아를 적극 사용할 계획입니다. 이를 통해 비용을 절감하고 고객에게 보다 합리적인 가격으로 서비스를 제공하도록 노력할 것입니다.
IT동아: 마지막으로 클레온의 향후 계획 및 목표에 대해 말씀 부탁드립니다.
조대양 팀장: 우선 몇 가지 새로운 서비스를 준비하고 있어요. 우선 연예인 디지털 휴먼과 다양한 언어로 대화하는 서비스 ‘크리챗’을 내년 상반기에 선보일 예정입니다. 또한 웃음, 화, 슬픔 등 감정을 표현할 수 있는 3D 메시 기반 디지털 휴먼도 제작하고 있습니다.
글로벌 시장도 적극적으로 준비하고 있습니다. 특히 미국의 경우 챗봇 시장이 활성화되어 있는데, 그만큼 디지털 휴먼에 대한 니즈도 강합니다. 저희는 3월 18일부터 진행된 엔비디아 GPU 테크놀로지 콘퍼런스(GTC) 2024에 참여하고 있는데 이를 통해 다양한 챗봇 기업과 협업 포인트를 만들고자 합니다.
이와 함께 지속적인 서비스 기획, 모델 고도화 및 경량화 등을 통해 다양한 분야에서 활용되고 편의성을 제공하는 섬세한 디지털 휴먼을 만들기 위해 노력할 것입니다.
글 / IT동아 한만혁 기자 (mh@itdonga.com)