'계란은 한 바구니에 담지 않는다'··· 메타, AMD와 6GW 인프라 계약 배경은?
[IT동아 남시현 기자] AMD가 메타의 차세대 AI 인프라 구축을 위한 공급 계약을 체결했다. 이번에 체결한 계약은 6 기가와트(GW) 규모의 그래픽 처리 장치를 공급하는 계약이며, AMD 인스팅트 MI450 그래픽 처리 장치를 시작으로 향후 개발되는 AMD 인스팅트 AI 가속기를 여러 세대에 걸쳐 공급한다. 또한 전략적 파트너십을 강화해 반도체, 시스템, 소프트웨어 전반에 걸쳐 메타의 작업 역량에 최적화된 AI 플랫폼 제공도 목표로 한다.

AMD가 제공하기로 한 6GW 인프라는 웬만한 국가급 에너지 인프라와 맞먹는다. 원자력 발전소 한 대의 발전 용량이 약 1GW며 현재 고리 원전에서 생산 중인 총전력의 2배를 넘는다. 즉 6개 발전소로 구성된 대형 원자력 발전소 단지 하나의 전력 생산량을 AI 인프라 가동에만 투입한다는 의미다.
AMD 인스팅트 MI450의 소비전력을 약 1000W로 계산했을 때 600만 개의 GPU에 해당하며, 네이버의 제2 데이터센터 ‘각 세종’을 22개 합친 것과 맞먹는 수준의 전력 규모다. 메타는 미국 루이지애나 주 리치랜드 패리시에 2GW급 데이터센터, 인디애나에 1GW 데이터센터를 건립 중이며 이를 포함한 각지의 데이터 센터에 자산을 배치할 것으로 보인다.

첫 구축에는 AMD MI450 아키텍처를 기반으로 한 맞춤형 인스팅트 GPU가 제공되며, 2026년 하반기에 첫 번째 기가와트 급 구축 물량이 제공된다. 하드웨어는 메타 맞춤형 AMD 인스팅트 MI450 기반 GPU와 코드명 ‘베니스’로 확정된 6세대 AMD 에픽 CPU, AMD와 메타가 공동 개발한 헬리오스(Helios) 랙스케일 형태로 제공된다. 해당 렉스케일은 AMD의 개발 도구인 ROCm 소프트웨어로 구동된다.
또한 GPU 협력 확대와 더불어 AMD 에픽 프로세서 파트너십도 강화한다. AMD 에픽 프로세서는 데이터서버용 CPU로 세계에서 가장 빠른 HPE 크레이 슈퍼컴퓨터 ‘엘 캐피탄’, 최초의 엑사스케일 시스템 ‘프런티어’ 등의 슈퍼컴퓨터에 탑재돼 있다. 메타는 전 세계 인프라 전반에 수백만 대의 AMD CPU를 활용 중이며, MI300 및 MI350 등의 GPU도 사용 중이다. 아직 세부 제품이 공개되지 않은 6세대 에픽 프로세서 역시 메타가 가장 처음 사용하는 고객 중 하나가 될 예정이다.

리사 수 AMD 최고경영자는 “메타는 전례 없는 규모로 AI의 경계를 확장하고 있으며 전략적 파트너십을 맺게 된 점이 매우 뜻깊다”라면서 “AMD와 메타는 다년, 다세대에 걸쳐 인스팅트 GPU, 에픽 CPU, 랙 스케일 AI 시스템 전반에 협력하며 로드맵을 일치시켰고, 메타의 작업 역량에 최적화된 고성능, 고에너지 효율의 인프라를 제공하고 있다. 업계 최대 규모의 AI 인프라 구축을 통해 AMD를 글로벌 AI 구축의 중심에 세우겠다”라고 밝혔다.
마크 저커버그 메타 최고경영자는 “효율적인 추론 컴퓨팅과 개인을 위한 초지능 구현을 위해 AMD와 장기적인 파트너십을 체결했다. 이는 메타가 컴퓨팅 인프라를 다각화하는 데 있어 중요한 단계며, AMD는 앞으로도 메타의 핵심 파트너가 될 것”이라고 말했다.
‘컴퓨팅 다각화’ 언급한 저커버그, 각자 다른 바구니에 계란 담기

메타는 지난 2020년부터 MTIA(Meta Training and Inference Accelerator)라는 이름의 자체 AI 가속기를 개발해 왔고, 2023년 5월에 공식 발표했다. 이후 학습 영역으로 지원 범위를 넓힌 2세대 아르테미스로 2세대 제품을 개발했으나 큰 반향을 일으키진 못했다. 메타는 AI 칩 개발을 포기하거나, 퓨리오사AI같은 AI 가속기 기업을 인수해 개발을 이어가는 방향을 고려했지만 엔비디아 GPU를 도입해 상황을 일시 봉합했다
이후 메타는 조용히 칩 개발을 진행했으며, 3세대 제품인 아이리스는 지난해 양산을 시작해 올해 초 본격적으로 도입될 전망이다. 아이리스는 TSMC 3nm 공정으로 제작되며, 8개의 HBM3E 12단 메모리를 통해 초당 3.5TB의 대역폭을 발휘하며, 8x8 행렬 연산 아키텍처와 희소 연산 파이프라인을 갖춰 딥러닝 추천 모델 처리에 최적화돼 있다. 메타는 2026년 하반기 중 액체 냉각 시스템과 HBM4 메모리를 탑재한 다음 세대 모델인 ‘산타 바바라’를 내놓을 것으로 보인다.

메타의 MTIA가 한동안 답보 상태에 빠지면서 메타는 부족한 AI 성능을 메우기 위해 엔비디아를 찾았으며, 지난 2월 20일에도 수백만 대의 엔비디아 블랙웰과 루빈 GPU를 통합 도입하기로 발표한 바 있다. 구체적인 도입 규모는 알려져 있지만 엔비디아 GPU를 구매할수록 AI 모델 학습, 추론 비용은 우상향 할 수 밖에 없다. 한편 미국 빅테크 기업들은 특정 하드웨어나 클라우드 서비스에 종속되는 벤더 록인(Vender Lock-in)을 사업의 중대한 위험 요소로 보고 멀티 벤더, 멀티 클라우드를 기본 전략으로 가져간다.
이번에 AMD와 6GW급 계약을 체결한 것도 엔비디아 칩과 AMD로 공급망을 나누기 위해서다. 이에 따라 메타는 향후 엔비디아가 공급 부족이나 가격 결정권을 휘두르더라도 AMD나 MTIA 사용을 확대하겠다며 가격 협상의 여지를 둘 수 있고, TSMC에 집중된 공급망도 다각화할 수 있다. 또 추론 서비스를 다른 칩으로 나눠 전력 효율이나 단가 등을 낮출 수도 있다. 전문가들은 메타가 2026년 말까지 전체 추론의 35%를 MTIA 기반 칩으로 구동하기를 희망하는 것으로 보고 있다.

메타가 궁극적으로 꿈꾸는 구성은 구글이다. 구글의 인프라스트럭처는 제미나이 등 내부 AI 서비스와 구글 클라우드 등 외부 공급사로 이원화되며, 각 분야별로 AI 가속기 비중이 다르다. 제미나이 등 내부 AI 서비스는 자체 개발한 7세대 TPU가 거의 90% 가까이 전담하며, 올해 약 330만 개 정도를 출하할 것으로 본다. 제미나이 3 기술 리포트에는 제미나이 3.1 프로 및 울트라의 학습 및 추론에 TPU v5p 및 v6e를 100% 활용했다며 엔비디아 의존도가 낮아졌음을 밝힌 바 있다.
외부 클라우드 역시 30~40%가 TPU로 추론 작업을 제공하는데 앤스로픽 등의 사업자가 수백만 개의 TPU를 계약하면서 자체 가속기 비중은 더 오를 전망이다. 이외 30~40%는 구글 클라우드에 주력으로 배치돼있고, AMD GPU 비중은 5% 이하로 알려져있다. 메타가 장기적으로 비용효율적인 AI를 달성하고, 시장 전반에서 빅테크로 남기 위해서는 MTIA의 성공이 절실해보인다.
IT동아 남시현 기자 (sh@itdonga.com)

