KT클라우드, 엔비디아 GPU 기반 학습 서비스 'AI Train' 출시
[IT동아 남시현 기자] KT클라우드가 엔비디아 GPU를 적용한 AI 트레이닝(학습) 전용 인프라 서비스, ‘AI Train’을 출시했다. 인공지능(AI) 개발은 데이터를 수집해 가공한 뒤, 모델의 형태로 최적화 과정을 교육시키는 학습(Training)과 학습을 통해 완성된 모델을 사용해 새로운 데이터에 대한 예측을 수행하는 ‘추론(Inference)’ 과정 두 가지로 나뉜다. 이번에 KT클라우드가 공개한 AI Train은 모델을 개발하는 ‘학습’에 대응하는 서비스다.
AI 학습은 가능한 많고, 성능이 높은 GPU를 사용할수록 빠르게 모델을 학습시킬 수 있어서, 전 세계적으로 AI 모델 구축을 위한 GPU 확보 경쟁이 치열한 상황이다. 이번에 출시된 AI Train을 통해 KT클라우드 이용자는 클라우드 상에서 AI 학습에 필요한 대용량, 고사양의 GPU 자산을 활용할 수 있다.
또한 KT클라우드가 22년 선보인 HAC(Hyperscale AI Computing)과 동일하게 대량의 GPU를 하나로 연결해 거대한 연산 자원으로 활용하는 대규모 GPU 노드 클러스터링과, 필요에 따라 컴퓨팅 자원을 실시간으로 할당 및 조정하는 동적 할당제어 기능을 지원한다. 여기에 AI Train은 애플리케이션 실행에 필요한 독립 패키지 ‘컨테이너’ 방식으로 클러스터 구성을 할 수 있다.
하드웨어는 엔비디아 호퍼 아키텍처 기반의 H100을 제공하며, 엔비디아 A100 및 V100도 사용할 수 있다. 사용자는 자원 할당 기능을 활용해 처리에 필요한 CPU, 메모리, GPU 등의 자원량을 템플릿 형태로 저장하고 쓸 수 있다. 또한 GPU를 사용한 시간만큼만 요금이 부과되고, GPU가 유휴 상태일 때는 컨테이너를 자동 반납하는 구조로 비용 효율성을 높였다.
AI Train은 지난 2023년 진행된 NIPA 고성능 컴퓨팅 사업∙AI 바우처 사업에서 사용 편의성을 검증했으며, 오는 6월 중에는 리벨리온과 협력해 공공 및 기업 고객 대상의 추론 전용 NPU(Neural Processing Unit, 신경망처리장치) 상품인 ‘AI SERV NPU’도 출시한다. 해당 서비스는 리벨리온이 올해 출시할 ‘ATOM Plus’ 칩 출시와 발맞춰 성능을 높일 예정이고, 추후 라마(Llama)-3 등의 sLLM(소형거대언어모델) 같은 AI 연구용 언어 모델을 지원할 예정이다.
한편 KT클라우드는 작년 10월, 슬라이싱 기술을 활용한 엔비디아 GPU 기반의 AI 추론 전용 서비스 ‘AI SERV’를 선보이며 고객 활용도를 높여왔다. 슬라이싱 기술은 GPU 자원을 여러 개의 작은 단위로 나눠 사용자가 필요한 만큼 자원을 쓸 수 있도록 하는 기술로, 자원을 더 효율적으로 쓸 수 있도록 한다. 반려견 생체인식 플랫폼 기업 ‘아지랑랑이랑’ 관계자는 “초기 GPU 투자 진행을 고민하다 KT클라우드의 AI SERV를 쓰게 됐다. 자사 연구 환경에 맞춰 GPU 사용량을 최적화하고, AI 연구 비용을 약 70% 이상 절감했다”라고 언급했다.
남충범 KT클라우드 본부장은 “KT클라우드는 지속적으로 확대되는 시장 내 인프라 수요에 적극 대응하고, 차별화된 AI 인프라를 제공하기 위해 AI Train을 선보이게 됐다”라면서, “다양한 파트너들과 협업하며 AI 클라우드 분야를 선도하고, 고객 사용성에 맞춘 AI 인프라 환경을 구현해 나갈 것”이라고 말했다.
글 / IT동아 남시현 (sh@itdonga.com)