[IT강의실] 생성형 AI와 클라우드의 상관관계는?
[IT동아 남시현 기자] 생성형 AI의 성능은 데이터의 품질과 양, 모델 아키텍처 및 알고리즘, 그리고 학습 및 평가 환경이 결정한다. 고품질 데이터를 많이 확보하고, 생성형 AI의 동작 구조와 성능을 최적화하며, AI가 제대로 학습하고 결과를 내놓도록 만들어야 한다. 마이크로소프트와 구글이 생성형 AI 시장에서 두각을 드러내는 이유도 데이터를 대량으로 수집하기 좋고, 또 이를 실행하기 위한 인프라와 인력 자원을 모두 갖추고 있어서다.
하지만 두 기업이 유독 생성형 AI 시장에서 부각되는 이유는 클라우드 덕분이다. 생성형 AI의 성능에서 가능한 많은 데이터를 확보하는 것도 중요하지만, 이를 관리하는 게 클라우드다. 마이크로소프트는 애저 클라우드, 구글은 구글 클라우드에서 자사 서비스에 최적화된 데이터와 맞춤형 칩을 도입해 경쟁력을 확보했다. 클라우드와 생성형 AI의 밀월 관계를 짚어본다.
생성형 AI의 성능은 ‘매개변수’에서 나온다.
일반적인 IT 서비스는 데이터를 보관, 활용, 배포하기 위한 서버가 필요하다. 과거에는 서비스 제공자가 물리적인 서버, 저장장치, 네트워크 장비 등을 직접 인터넷 데이터 센터(IDC) 형태로 구축해 활용했지만, 소규모 및 대규모 서버의 필요성이 커지면서 인터넷으로 서버 자원을 끌어다 쓰는 ‘클라우드’ 개념이 생겼다.
클라우드 컴퓨팅은 클라우드 서비스 기업이 구축한 서버 자원을 인터넷으로 끌어다 쓰는 개념인데, 단순히 데이터 처리 및 보관뿐만 아니라 보관된 데이터를 가공하고 소프트웨어 형태로 활용할 수 있다. 가용 자원 역시 필요에 따라 늘리거나 줄일 수 있고, 필요한 하드웨어 및 소프트웨어도 클릭 몇 번이면 쓸 수 있다. 국제 표준이나 보안 규격, 최신 작업 환경도 장점이다.
한편 생성형 AI는 기계학습과 자연어 처리 등의 기술이 적용된 인공지능의 한 형태다. 사전에 수집되고 정리된 데이터를 활용하고, 이를 토대로 사용자의 요청을 바탕으로 콘텐츠를 만들어 제공한다. 생성형 AI의 성능은 데이터의 단위인 ‘매개변수’를 얼마나 많이 가지고 있는지가 결정하는데, 구글 제미나이 울트라는 약 1조 5600억 개, GPT-4는 약 1조 7000억 개의 매개변수를 갖춘 것으로 알려져 있다.
막대한 양의 매개변수 저장, 정리에 ‘클라우드’ 사용
생성형 AI 기업들은 갈수록 많은 양의 매개변수를 인공지능에 탑재하고 있다. 물론 IDC로도 생성형 AI를 저장하고 관리할 수 있지만, 문제는 물리적인 한계다. 만약 생성형 AI 수요가 늘어난다면 IDC 환경에서는 매번 수요에 맞춰 서버 및 저장장치를 발주하고 설치해야 한다. 여기에만 최소 몇 주 이상이 걸리고, 수요 예측도 쉽지 않다. 만약 서버를 늘렸다가 수요가 감소하면 손해를 떠안게 된다.
클라우드는 실시간으로 서버 수요를 조정할 수 있다. 저장 공간의 한계가 없으니 수요에 맞춰 용량을 늘리고 줄이는 방식으로 예산을 절감할 수 있다. 또한 클라우드 사업자 역시 생성형 AI 데이터 처리를 위해 전용 하드웨어, 데이터 분석 및 개발, 모니터링 소프트웨어 등을 제공하고, 개발된 서비스도 가상 환경에서 검증을 거치고 배포할 수 있다. 클라우드가 없었다면 생성형 AI 역시 이렇게 빨리 성장할 수 없었다.
생성형 AI, 클라우드 기업이 앞설 수밖에 없어
많은 기업들이 생성형 AI를 연구하고 있지만, 결국은 클라우드 기업이 승리할 수밖에 없다. 마이크로소프트는 지난해 11월, 생성형 AI 연산에 최적화된 마이아 100, 서버 CPU 코발트 100을 도입했고, 구글 역시 8월에 구글 TPU v5e AI 가속기를 자사 클라우드에 도입했다. 클라우드 시장 1위 기업인 AWS도 생성형 AI 및 기계학습, 인공지능 개발에 최적화된 그래비톤, 인퍼런시아, 트레이니엄 세 칩을 개발하고, 이를 기반으로 하는 생성형 AI AWS 타이탄, 베드록을 서비스한다.
국내 상황도 비슷하다. 지난 2월 5일, NHN클라우드와 네이버클라우드는 AI 공동사업을 위한 업무협약을 맺고 하이퍼클로바 X 기술을 적용한 멀티 클라우드 공동 개발, 공동 및 교육분야 맞춤형 LLM(대형언어모델) 사업 협력, 공동 개발 서비스의 시장 확대 및 지원 등을 추진하기로 했다. 네이버클라우드는 클라우드 사업자의 입지를 살려 초거대 AI 사업을 진행하는데, 글로벌 시장이 급변해 공동 대응에 나서는 것이다.
클라우드가 없는 AI 사업자는 상황이 쉽지 않다. 인공지능용 LLM을 개발하는 메타의 경우, 라마1(Llama)까지는 연구자를 대상으로만 공개했으나, 라마2는 누구나 무료로 쓰고 개발하도록 MS, AWS, 알리바바, 허깅페이스 등에 오픈소스로 배포했다. 이처럼 생성형 AI, LLM만 만드는 기업들은 결국 타사 클라우드에 서비스를 탑재하는 식으로 시장에 승차하고 있다.
메타버스, NFT와 다른 ‘생성형 AI’의 성장세
생성형 AI는 작년과 올해, 내년까지 IT 업계의 뜨거운 감자다. 실증 개념은 뚜렷했으나 상업적 성과가 없었던 메타버스, 대체불가능토큰(NFT)와 달리 생성형 AI는 전 산업 영역에서 새로운 가치를 창출하고 있다. 이미 스테이블디퓨전, 미드저니 등의 생성형 AI가 이미지 창작으로 미술, 광고 업계를 뒤집어놓았고, GPT도 서비스업, 교육, 코딩, 문서작업 등 많은 영역에서 혁신을 일으키고 있다. 오픈AI의 동영상 생성형 AI ‘소라’는 또 한 번 시장에 충격을 줄 전망이다.
그리고 그 모든 성장 배경에는 클라우드가 있다. 즉 생성형 AI가 존재할 수 있는 이유 자체가 클라우드가 뒷받침이 되는 덕분이다. 네이버클라우드 관계자는 “AI 모델과 서비스가 고도화하는 상황에서는 소프트웨어, 하드웨어, 운영 환경의 통합적 접근이 필요하고, 이를 감당할 수 있는 솔루션이 클라우드 서비스”라면서, “네이버처럼 클라우드, 데이터센터, AI 반도체 등의 인프라를 자체 보유한 형태가 빅데이터 및 생성형 AI 서비스를 안정적이고 효율적으로 운영할 수 있는 모델”이라고 답했다.
글 / IT동아 남시현 (sh@itdonga.com)