AMD, 인스팅트 MI350X·ROCm 7 공개··· 'AI 서버 설루션 종합기업 추구'

#AMD #EPYC #MI350 #MI355 #MI400 #ROCm #리사수 #어드밴싱AI #에픽 #인스팅트 #헬리오스

남시현 sh@itdonga.com

2025.06.13.

[세너제이=IT동아] 글로벌 반도체 기업 AMD가 6월 12일(현지시간) 미국 캘리포니아 주 세너제이에서 어드밴싱 AI(Advancing AI 2025) 행사를 열고 AMD 인스팅트 MI350X 및 MI355X AI 가속기와 AMD 펜산도 폴라라 400 AI NIC, ROCm 7 등 산업용 포트폴리오를 업데이트했다. 또한 내년에 출시 예정인 HBM4 기반의 AMD 인스팅트 MI400 AI 가속기의 기본적인 성능과 향후 AI 인프라 전략에 대해서도 전반적으로 소개했다. 어드밴싱 AI는 AMD의 서버용, 산업용 반도체를 공개하는 연례행사며, AMD 제품 생태계 및 파트너사 도입 사례 등을 한눈에 확인하는 자리다.

리사 수 AMD 최고경영자가 AMD의 새로운 AI 가속기인 AMD 인스팅트 MI 350 시리즈 반도체를 소개 중이다 / 출처=IT동아

리사 수(Lisa Su) AMD 최고경영자는 “새로운 사용 사례와 추론 모델이 등장하며 향후 몇 년간 추론 시장은 80% 이상 성장하며 AI 컴퓨팅 시장의 성장 동력이 될 것이다. 고성능 GPU가 이 사장의 대부분을 차지하겠지만 정답인 단일 아키텍처는 없다. 각 사용사례에 적합한 컴퓨팅이 필요하며, 이것이 우리가 집중하는 부분”이라고 말했다.

이어서 “AMD의 전략은 세 가지 핵심 원칙이 있다. 첫째, 고객이 활용하는 모델과 활용 사례에 적합한 컴퓨팅을 제공할 수 있도록 광범위한 컴퓨터 포트폴리오를 제공할 것, 둘째, 개방형 개발자 중심 생태계에 대한 투자할 것, 세 번째로 AMD는 CPU, GPU, DPU, NIC, FPGA, 적응형 SoC를 포함한 모든 컴퓨팅 풀스택 설루션을 제공하는 것이다. AMD는 AI가 어디에서 실행되든 모든 조건에 부합하는 컴퓨터를 제공하겠다”라며 발표를 시작했다.

AMD, 인스팅트 MI350X 시리즈로 점진적 시장 확산 노려

AMD 인스팅트 MI350 시리즈는 다이렉트 수랭식 기반의 MI355X와 공랭 기반의 MI350X로 출시된다. 두 제품의 반도체는 동일하고 냉각 방식에 따른 효율 차이만 있다 / 출처=IT동아

AMD 어드밴싱 AI 2025의 핵심은 새로운 서버용 AI 가속기인 AMD 인스팅트 MI350 시리즈의 등장이다. AMD 인스팅트 MI350 시리즈는 공랭 기반의 MI350X와 수랭 기반의 MI355X 두 종류로 출시되며, 냉각 효율 차이에 따른 최대 동작 성능과 전력 효율에 차이를 보인다. MI350 시리즈의 CNDA4 아키텍처는 ▲생성형 AI 및 LLM 처리를 위한 매트릭스 엔진 성능 강화 ▲ 혼합정밀도산술 처리를 위한 새로운 데이터 포맷 지원 ▲ 인피니티 패브릭 및 패키지 연결성 강화 ▲ 에너지 효율성 증가 네 가지 주요 변경점이 있다.

MI350 시리즈 GPU 프로세서는 서로 각기 다른 공정에서 제조된 반도체 칩을 하나의 칩으로 엮는 칩렛 기술이 사용된다. 연산 처리의 핵심인 CDNA 4 컴퓨트 유닛은 TSMC N3P 공정이 사용되며, 인터페이스 출력과 연결성을 맡는 I/O 다이는 TSMC N6 공정 기반이다. 메모리는 12단 HBM3E(고대역폭메모리) 여덟개 엮어 총 288GB로 구성되며, 삼성전자와 마이크론 제품이 채택된 것으로 확인된다. AMD가 MI350X에 삼성전자 HBM3E 12단을 정식으로 사용하면서 글로벌 AI 시장에서도 삼성전자 HBM3E 도입에 탄력을 받을 것으로 보인다.

AMD 인스팅트 MI350은 서버 환경에서의 작업 효율을 높이기 위해 메모리를 파티셔닝할 수 있다 / 출처=AMD

가상화가 아닌 직접 운영체제를 구동하는 베어메탈 환경, 단일 루트 입출력 가상화를 위한 메모리 파티셔닝 기능도 도입된다. 최근 AI 서버는 대규모로 자산을 동원해 AI 모델을 구축하거나, 다수의 사용자가 요구하는 AI 연산을 처리하기 위해 파편화해서 대응하는 경우가 많다. AMD 인스팅트 MI350 시리즈도 시장의 활용에 따라 메모리 영역을 8개로 분할할 수 있다. 전체 단일 구성시 5200억 개 매개변수의 AI 모델을 처리할 수 있고, 8개로 나누면 각 파티션이 메타 라마 3.1 72B(720억 개) 처리를 지원한다.

AMD 인스팅트 MI350 시리즈는 288GB HBM3E 메모리 탑재로 생성형 AI 및 LLM 처리 효율을 크게 늘렸다 / 출처=IT동아

연산 성능은 공랭식인 인스팅트 MI350X가 16비트 부동소수점(FP16)에서 4.6페타플롭스(PF), FP8에서 9.2PF다. 인스팅트 MI355X는 다이렉트 수랭 방식으로 FP16에서 5PF, FP8에서 10PF로 성능이 소폭 높다. HBM3 기반의 AMD 인스팅트 MI300X와 비교해 추론 성능은 최소 2.6배에서 최대 4.2배까지 높아졌다. 엔비디아 B200과 비교해 FP8 및 BF16 사전 훈련 성능은 거의 동일하며, FP8 기준 파인 튜닝 성능은 1.1배 정도 더 높다.

AMD 인스팅트 MI350 시리즈는 오라클, 델, 슈퍼마이크로, HPE 등 다양한 파트너사를 통해 올해 3분기부터 시장에 공급된다.

AMD는 차세대 제품인 AMD 인스팅트 MI400 시리즈에 대한 간략한 소식은 물론 이를 탑재한 고성능 AI 렉 설루션인 AMD 헬리오스도 소개했다 / 출처=IT동아

2026년 출시될 차세대 제품인 AMD 인스팅트 MI400 시리즈 GPU에 대한 기본적인 성능 및 구성도 최초로 공개됐다. AMD 인스팅트 MI400은 FP4 기준 40페타플롭스, FP8 기준 20페타플롭스의 성능을 지닌다. 또 초당 19.6테라바이트의 메모리 대역폭을 갖추며 432GB의 HBM4 메모리를 장착한다. AMD는 젠6 아키텍처 기반의 AMD 에픽 프로세서와 인스팅트 MI400, AMD 펜산도 및 ROCm 전반으로 구성된 ‘헬리오스(Helios)’ AI 렉도 공개했다. 헬리오스는 2026년 출시 예정이며, 동급 구성의 엔비디아 베라 루빈 렉과 비슷하거나 조금 더 높은 성능을 갖추게 된다.

실질 성능과 확장성 더 좋아진 AMD ROCm 7

밤시 보파나(Vamsi Bopanna) AMD 인공지능 그룹 수석 부사장이 ROCm 7의 정식 출시를 알렸다 / 출처=IT동아

리사 수 CEO는 “하드웨어가 강력하더라도 진정한 잠재력을 발휘하게 하는 것은 소프트웨어다. 많은 개발자들이 소프트웨어의 개선점을 얘기하고 있으며, 이를 바탕으로 ROCm도 놀라울 정도로 발전하고 있다. 우리는 AI 모델 적용 범위 확대와 출시 속도 가속, 개발자 중심 사고방식 확립에 저력을 쏟고 있다”라며 ROCm 7 출시를 알렸다.

ROCm은 AMD 라데온 그래픽카드의 연산 프로그래밍을 위한 소프트웨어로, 엔비디아의 쿠다(CUDA)와 같은 역할을 한다. 다만 엔비디아가 90% 이상의 시장 점유율로 쿠다 생태계를 20여 년 가까이 다져온 터라 후발 주자인 AMD가 ROCm 생태계를 구축하기란 쉽지 않다. AMD ROCm은 이번 발표에서 7세대로 업그레이드됐으며, ▲ 최신 알고리즘 및 모델 지원 ▲AI 구축을 위한 고급기능 지원 ▲ MI350 시리즈 지원 ▲분산 자원 관리 ▲ 산업 시장 대응을 주요 골자로 한다.

특히 ROCm 6와 비교해 메타 라마 3.1 70B 추론 성능이 3.2배, 알리바바 큐웬 2-72B 모델도 3.4배, 딥시크 R1도 3.8배나 향상됐다. AI 모델 훈련 성능 역시 메타 라마 2 70B와 3.1 8B, 큐웬 1.5 7B 훈련 시 3배나 좋아졌다. AMD 인스팅트 MI355와 ROCm 7의 조합은 엔비디아 B200과 비교해 FP8 조건에서 1.3배 높은 효율을 낼 수 있다.

AMD는 개발자들이 AMD 인스팅트 GPU를 AI 개발에 활용할 수 있도록 ‘AMD 디벨로퍼 클라우드’를 서비스하기로 헀다 / 출처=IT동아

운영체제 지원도 확장된다. 리눅스 계열은 이미 오픈수세(OpenSUSE)를 지원하며, 올해 2분기 중에 레드헷 EPEL, 우분투도 지원 예정이다. 윈도우 계열은 올해 3분기 중에 파이토치를 지원하고, 7월 중에 오닉스-EP도 공식 지원한다. 리눅스 계열 중에는 페도라, 윈도우 계열은 HIP SDK와 리눅스용 윈도우 하위 시스템도 향후 지원 목록에 이름을 올렸다.

아울러 AMD는 전 세계 개발자 및 오픈소스 커뮤니티를 위한 AMD 디벨로퍼 클라우드를 공식 출시한다. 디벨로퍼 클라우드는 AI 업계의 AMD GPU 도입률을 올리기 위한 시범 서비스로, ROCm 기반 환경을 직접 시험해 볼 수 있다.

AI 서버 환경 위한 AMD 폴라라 400 AI NIC도 출시

서버 환경은 핵심 연산을 처리하는 CPU와 AI 작업에 대응하는 GPU가 핵심이며, 이를 서버 및 가속기와 원활하게 연결하기 위한 DPU(데이터 처리 장치)도 필요하다. AMD는 지난해 어드밴싱 AI 행사에서 펜산도 폴라라 400 네트워크 인터페이스 컨트롤러(NIC)를 출시했으며, 올해는 이를 AI 환경에 더 최적화한 AMD 펜산도 폴라라 400 AI NIC으로 공개했다.

포레스트 노로드(Forrest Norrod) AMD 데이터 설루션 그룹 수석부사장이 폴라라 400 AI NIC 카드를 소개 중이다 / 출처=IT동아

AMD 폴라라 400 AI NIC은 고성능 컴퓨팅 작업 환경을 위한 이더넷 기반 통신 기술인 울트라 이더넷 컨소시엄(UEC) 사양을 정식 지원한다. 구성면에서는 ▲ 완전히 프로그래밍할 수 있는 맞춤형 전송 ▲네트워크 처리 부하를 CPU에서 NIC로 전달해 시스템을 가속화하는 기능 ▲ PCIe 5세대 채택으로 최대 400GB 이더넷 지원 ▲ 시스템 확장 시 특정 네트워크 패브릭에 종속되지 않는 등의 특징이 있다.

성능 면에서는 AMD 자체 네트워크 연결 환경에서 RoCEv2(RDMA over Converged Ethernet 버전 2)을 구성할 때 엔비디아 엔비디아 CX7 대비 1.1배, 브로드컴 토르2 대비 1.2배의 성능을 낸다. 다만 DPU 자체가 AI 추론 등을 수행하는 것은 아니며 AI 서버 시스템에 적정한 구성이라는 의미에서 AI NIC이라는 이름이 붙었다.

CPU, GPU, DPU, ROCm으로 엮이는 포트폴리오

AMD는 2025년 현재, AI 서버의 모든 구성 요소를 확보한 기업이다. 엔비디아는 AI 서버 구축의 핵심인 GPU 시장의 강자고, 블루필드 DPU와 커넥트-X NIC 등 주변 구성 요소도 다 갖추고 있다. 하지만 고성능 컴퓨팅 환경을 위한 x86 프로세서 라인업은 없으므로 Arm 기반 CPU를 대체제로 내세우고 있다. 인텔은 제온 기반의 x86 프로세서 라인업은 잘 갖췄지만, 가우디 3 기반 AI 가속기 등에서 고전을 면치 못하고 있다.

AMD는 시스템반도체 기업에서 AI 종합 인프라 기업으로의 체질개선에 나서고 있다 / 출처=IT동아

AMD는 x86 기반 고성능 프로세서인 에픽(EPYC), AI 가속기용 AMD 인스팅트, 데이터 처리를 위한 AMD 펜산도, 그리고 이를 지원하는 ROCm 생태계까지 모두 갖추고 있다. 물론 엔비디아의 절대적인 영향력이 큰 시장이지만, 엔비디아에는 없는 x86 서버용 프로세서와 점진적으로 시장 점유율을 늘리는 등 나름의 성과를 만들어가고 있다. ROCm 역시 꾸준히 업데이트되며, 디벨로퍼 클라우드 출시를 통해 개발자들이 한번 써볼 수 있게 만드는 등 대책도 마련하고 있다. 지난해 말에는 데이터서버 건설 전문 기업인 ZT시스템즈까지 인수하며 AI 시대에 필요한 모든 인프라스트럭처에 관여할 각을 재고 있다.

리사 수 AMD 최고경영자는 “현대 컴퓨팅은 우리가 본 적 없는 속도로 빠르게 발전하고 있고, AI 생태계가 모든 것의 중심에 있다. AMD는 AI를 더욱 강력하고, 접근성이 뛰어나며, 모두에게 유용하게 만들기 위한 기술과 인재, 파트너들을 모으고 있다. AI의 미래는 어느 한 회사나 폐쇄적 생태계에서만 만들어지지 않는다. 업계 전반의 열린 협업을 통해 이를 이뤄내겠다”라고 말했다. AMD는 지금, 오늘의 시장 점유율이 아닌 5년에서 10년 뒤의 시장을 바라보고 기업 전반을 바꾸고 있다. 앞으로 AMD 전반의 포트폴리오가 시장에서 어떤 성과를 올릴지 귀추가 주목된다.

IT동아 남시현 기자 (sh@itdonga.com)

#AMD #EPYC #MI350 #MI355 #MI400 #ROCm #리사수 #어드밴싱AI #에픽 #인스팅트 #헬리오스