블랙웰 다음 루빈, 엔비디아 차기 인공지능 가속 플랫폼 공개
[IT동아 강형석 기자] “인공지능 처리 성능은 꾸준히 향상되면서 추론 및 훈련 비용은 낮아지고 있다. 관련 기능은 꾸준히 확장 중이다. 많은 기업이 합류하면 할수록 더 큰 비용 절감이 가능하다. 호퍼 플랫폼은 역사상 가장 성공적인 데이터센터 프로세서였다. 블랙웰은 전체 플랫폼을 구축하고 인공지능 슈퍼컴퓨터에 통합될 것이다. 하지만 기술 발전은 매우 빠르다. 따라서 우리는 1년 주기로 제품을 판매할 것이다.”
2024년 6월 2일, 대만 타이페이에서 개최되는 컴퓨텍스 2024 기조연설에 모습을 드러낸 젠슨 황 엔비디아 CEO는 인공지능 관련한 다양한 기술을 소개했다. 이 중 눈에 띄는 부분은 엔비디아가 1년 주기로 데이터센터 제품군을 선보일 것이라는 점이다. 이어 GTC 2024에서 언급되지 않았던 블랙웰(Blackwell) 플랫폼의 차기 라인업이 공개됐다.
엔비디아는 지난 2022년, 호퍼(Hopper)라는 이름의 인공지능 가속장치를 공개했다. 기존 엔비디아 그래픽 처리장치(GPU) 설계와 다른 데이터센터 특화 설계를 앞세워 인공지능 처리 성능을 크게 끌어올렸다. 칩에는 고대역 메모리(HBM)3 모듈 6개를 붙여 이뤄낸 결과였다. 2023년에는 데이터 대역을 더 늘린 HBM3e 메모리 6개로 구성된 호퍼+ 인공지능 가속장치를 선보였다. 이때 ARM 설계를 바탕으로 자체 개발한 그레이스(Grace) 중앙처리장치(GPU)를 함께 구성하기도 했다.
블랙웰은 호퍼에 이어 새로 개발된 차세대 인공지능 가속장치다. 호퍼 수준의 칩을 2개 이어 붙인 형태로 설계된 빅칩이다. HBM3e 메모리 8개로 구성되며 방대한 데이터를 빠르게 주고받고자 NV링크 스위치와 네트워크 시스템도 새로 개발했다. 엔비디아는 2024년 하반기부터 블랙웰을 고객에게 인도할 예정이다.
다음 해에는 블랙웰 울트라(Blackwell Ultra)가 출시될 예정이다. 기존의 플랫폼 틀은 유지하지만 칩에 집적되는 HBM3e 모듈이 12단으로 업그레이드된다. 모듈 8개 구성은 그대로다. 추가로 네트워크 스위치 칩인 스펙트럼(Spectrum)도 스펙트럼 울트라로 업그레이드된다.
한발 더 나아가 2026년에는 루빈 플랫폼이 출시된다. 세대교체 대상은 블랙웰이 아닌 호퍼 혹은 이전 세대 처리장치가 될 가능성이 높다. 향후 TSMC의 생산 효율이 어느 수준까지 개선될지 가늠하기 어렵지만, 현재 블랙웰 및 호퍼의 공급 상황을 보면 루빈 플랫폼이 출시되는 2026년까지 블랙웰은 주력인 채 계속 공급될 것으로 예상된다. 이 외에 NV링크 스위치와 네트워크 스위치 칩 등도 성능을 2배 높인다는 계획이다.
루빈은 미국의 천문학자인 베라 쿠퍼 루빈(Vera Cooper Rubin)의 업적을 기리기 위해 쓴 것으로 보인다. 은하 회전 연구와 관련 큰 업적을 남긴 것으로 알려져 있다. 실제 엔비디아 루빈 플랫폼은 그래픽 처리장치(GPU)와 베라 기반 중앙처리장치(CPU)가 짝을 이룬다.
구체적인 성능은 언급되지 않았으나 루빈은 4세대 HBM을 쓸 예정이다. 8개의 모듈이 집적되고 이후에는 12개 HBM4 메모리를 집적한 루빈 울트라 GPU를 선보인다. 출시 계획은 2027년으로 잡았다. 과거 인텔의 틱-톡(Tick-Tock)처럼 한 번은 설계 구조를, 다음에 공정을 바꾸는 식이 아니더라도 성능과 기능이 개선된 제품을 지속 선보이며 기업 성장 흐름을 이어가겠다는 전략으로 풀이된다.
차세대 제품을 깜짝 공개하면서 강조한 부분 중 하나는 ‘하나의 설계(아키텍처)’였다. 칩보다 데이터센터를 구성하는 시스템 구성을 단일화해 차기 제품을 선보이더라도 쉽게 교체하거나 호환성을 높이는 부분에 초점을 둔 모양새다. 엔비디아 입장에서도 플랫폼을 단순화할 경우 전체적인 데이터센터 규격을 유지하면서 안에 탑재되는 처리장치, 네트워크 스위치, NV링크 등의 성능 개선에 집중하면 되니 효율적인 운영을 꾀할 수 있다. 향후 엔비디아의 결정이 시장에 어떤 영향을 줄지 귀추가 주목된다.
글 / IT동아 강형석 (redbk@itdonga.com)