‘연 단위 출시, 네트워크 대역 확장’ 인공지능 가속기 경쟁 달아오른다
[IT동아 강형석 기자] 인공지능 가속기 경쟁이 뜨거워진다. 엔비디아와 AMD가 신제품을 주기적으로 투입, 기업의 인공지능 학습ㆍ추론 수요에 대응하기로 입을 모았기 때문이다. 심지어 폭발적으로 증가하는 인공지능의 데이터 처리량을 처리하기 위한 네트워크 시스템 구축 경쟁도 함께 이뤄질 전망이다. 단순히 보면 인공지능 장비를 시작으로 넓게 보면 데이터센터 인프라 전반에 걸친 경쟁이 시작되는 것이다. 여기에 가우디 제품군으로 경쟁을 선언한 인텔까지 가세할 경우 경쟁은 과열될 가능성이 높다.
2024년 6월 2일, 엔비디아는 컴퓨텍스 2024를 앞두고 기조연설을 진행했다. 젠슨 황 엔비디아 최고경영자(CEO)는 자사의 인공지능 시장 리더십을 강조했다. 동시에 인공지능 가속기와 관련한 청사진까지 제시했다. 현재 시장의 인기를 얻고 있는 호퍼(Hopper) 플랫폼의 뒤를 이어 블랙웰(Blackwell), 그리고 그 다음 플랫폼인 루빈(Rubin)까지 공개했다. 그 사이에는 ‘울트라(Ultra)’로 명명된 성능 개선 제품군을 투입한다는 계획도 언급했다.
AMD도 마찬가지다. 2024년 6월 3일에 진행한 기조연설에서 리사 수 AMD CEO는 현행 인스팅트(Instint) MI300X에 뒤를 이어 올해에는 MI325X를 선보이고 이어 MI350과 MI400 등을 차례로 선보인다. MI300 계열 제품의 성능을 꾸준히 높이고 2026년에는 새로운 반도체 설계 구조를 앞세워 세대교체를 이뤄가는 식이다.
인텔은 2024년 6월 4일에 진행한 2일차 기조연설에서 가우디 인공지능 가속기의 ‘경제성’을 강조하며 틈새시장을 공략할 예정이다. 경쟁사 대비 최대 1/3 수준의 가격 우위를 가짐에도 성능은 경쟁사 못지 않다는 입장이다. 특히 가우디 3 인공지능 가속기는 8192개의 연산 클러스터로 동급 규모의 엔비디아 H100 플랫폼 대비 학습 시간을 최대 40% 정도 단축 가능하다고 강조했다. 다만 이후의 구체적인 제품 청사진은 언급되지 않았다.
2년마다 새 반도체 설계 적용하고 그 사이에 성능 개선 제품 투입
엔비디아와 AMD의 인공지능 가속기 전략의 핵심은 ‘1년마다 신제품 투입’에 있다. 이는 과거 인텔이 썼던 전략과 유사하다. 인텔은 틱-톡(Tick-Tock)이라는 이름으로 한 번은 반도체 설계를, 그 다음에는 미세공정을 바꾸며 제품을 선보였다. 1년에 한 번 신제품을 출시할 수 있고 상황에 따라 제품 개발과 구성을 유연하게 가져갈 수 있었다.
두 기업도 완전히 같다고 볼 수 없지만, 비슷한 면이 있다. 2년 주기로 새로운 반도체 설계를 적용하고 그 사이에 성능 개선을 이룬 제품을 투입하는 식이다. 엔비디아는 올해 호퍼에서 설계를 바꾼 블랙웰을 선보인다. 호퍼 출시 2년 만이다. 블랙웰 다음 출시될 루빈(Rubin)은 2년 뒤인 2026년에 출시될 예정이다. 그 사이에 울트라가 투입된다.
AMD는 조금 다르지만 2024년 이후 행보는 엔비디아와 같다. 먼저 2023년 하반기에 공개한 MI300X에서 1년 단위로 업그레이드를 단행한다. MI325X와 MI350이 그 예다. 올해 4분기 중 출시될 MI325X는 HBM3e 모듈을 채택해 데이터 처리량을 늘리고, 내년 하반기에 출시할 MI350에서는 성능을 더 끌어낸다는 계획이다. 마지막 2026년에는 새로운 반도체 설계를 적용한 신제품을 내놓는다. 이 때 AMD는 엔비디아 루빈 플랫폼과 경쟁하게 된다.
두 기업은 1년 단위 제품 출시 흐름을 가지고 치열하게 눈치 싸움을 벌일 전망이지만, 당분간은 직접 경쟁하지 않을 가능성이 높다. 엔비디아는 높은 시장 점유율과 뛰어난 성능을 강점으로 내세우지만, 공급에 대한 우려가 남아 있다. AMD는 성능과 함께 제품 도입 공백 문제를 해결할 대안이라는 점을 내세우며 빈틈을 노리는 전략이 유리하다.
과거 2년 주기가 아닌 1년 주기로 제품을 선보이기로 결정한 데에는 수요가 그만큼 증가할 것이라는 것을 예상한 결과다. 실제 인공지능 서비스 기업은 데이터센터 확대를 진행 중이다. 마이크로소프트는 미국 위스콘신주, 구글은 영국에 데이터센터 구축을 위한 투자를 시작했다. 테슬라와 아마존 등도 인공지능 패권 경쟁을 위해 데이터센터 및 기존 장비 업그레이드 등에 심혈을 기울이고 있다. 이 과정에서 많은 물량의 장비가 필요하기 때문에 자연스레 1년 단위 출시가 이뤄져도 소화에 문제가 없다고 판단했을 것이다.
엄청난 속도로 증가 중인 데이터, 네트워크 속도 경쟁도 뜨거워진다
네트워크 시스템과 관련 인프라 구축에 대한 기업의 관심도 높아지는 중이다. 점점 방대해지는 인공지능 관련 데이터를 시스템간 주고받는 것은 물론이고 일반에게 제공하려면 결국 빠르고 유연한 네트워크 전송 구조를 갖춰야 한다. 이 부분에서 엔비디아와 AMD는 다른 길로 접근했다.
엔비디아는 스펙트럼(Spectrum)-X로 대응하고 있다. 블랙웰 플랫폼에는 스펙트럼-X800 이더넷 스위치와 퀀텀(Quantum)-X800 스위치가 호흡을 맞춘다. 스펙트럼-X는 인공지능 가속기가 처리한 데이터를 순차적으로 처리했던 기존 네트워크 전송 방식이 아닌 가속기간 상호 연동을 통해 속도를 높인다. 빠른 데이터 전송을 위해 블루필드(BlueField)-3 네트워크 가속기(SuperNIC)를 쓴다. 이 장치는 1초에 400Gb를 전송할 수 있다. 또한 스펙트럼-X800 스위치 장비는 64개 네트워크 단자를 제공하며 단자당 초당 800Gb 데이터 전송을 지원한다.
현재 사양을 끌어 올리면서 루빈 플랫폼이 적용되는 시점에는 데이터 전송량을 최대 2배 끌어 올리는 것이 엔비디아의 계획이다. 기기간 데이터 전송을 지원하는 NV링크(NVLink)도 6세대에 와서는 초당 3600GB를 전송하는 게 목표다.
AMD도 인공지능 가속기에서 처리되는 데이터 전송 속도를 높이기 위해 초 가속 연결(Ultra Accelerator Link) 그룹을 결성했다. 인텔, 브로드컴, 마이크로소프트, 메타, 구글, HP 등 8개 기업이 참여해 데이터센터 내 인공지능 시스템을 위한 고속ㆍ저지연 통신 기술을 논의한다. 이미 울트라 이더넷 컨소시엄(UE Consortium)을 통해 초기 기술을 개발한 것으로 알려졌다. 기본적으로 인공지능 시스템 내에서 최대 1024개 가속 연결을 지원하고 각 장치간 메모리 접근과 저장이 가능하다. 이 기술은 2024년 3분기 이후부터 적용될 예정이다.
인공지능 가속기 시장을 둘러싼 하드웨어와 인프라 경쟁은 이미 시작됐다. 시장이 빠르게 흘러갈수록 관련 기업도 발 빠르게 움직일 것으로 예상된다.
글 / IT동아 강형석 (redbk@itdonga.com)