‘NPU+GPU 성능 개선’ AMD 라이젠 AI 300 프로세서의 핵심 요소는?
[IT동아 강형석 기자] AMD가 코드명 ‘스트릭스 포인트(Strix Point)’로 알려진 3세대 라이젠 AI 프로세서로 인공지능(AI) PC 시장 선점에 나선다. 에이수스, 게이머 공화국(Republic Of Gamers – ROG), 레노버, HP, 엠에스아이(MSI) 등 주요 노트북 제조사와 협력 중이며 약 150개 이상 AI 노트북 PC 제품을 시장에 선보인다는 계획이다. 출시는 2024년 3분기 내에 이뤄질 것으로 보인다.
잭 후인(Jack Huynh) AMD 수석 부사장 및 컴퓨팅ㆍ그래픽스 총괄 관리자는 2024년 7월 9일(미국 현지 시간), 미국 로스앤젤레스 웨스틴 보나벤처 호텔에서 개최된 AMD 테크데이 연단에 올라 3세대 라이젠 AI 프로세서를 소개하고 PC 시장 변화에 대한 AMD의 기술 전략을 언급했다.
“젠(Zen) 반도체 설계의 중앙처리장치는 세상을 놀라게 했다. 클럭 사이클당 명령어 처리 수(IPC) 성능을 한 단계 높였고 이후에는 7나노미터 칩과 14나노미터 입출력 칩을 결합하는 ‘트리플렛(Triplelet)’ 기술을 적용했다. 구리 대 구리 하이브리드 본딩 기술을 적용한 3D 시스템-온-칩(SoC)은 설계의 경계를 허물었다. 최고의 게이밍 프로세서를 추구한 그래나이트 릿지(Granite Ridge)는 밀도 높은 내부 상호연결 기술로 캐시 용량을 확보했다. 지난해에는 처음으로 전용 신경망 처리장치(NPU)를 가속처리장치(APU)에 통합, AI PC의 전환을 주도 중이다.”
AMD가 라이젠 프로세서에 적용해 온 기술들을 나열한 잭 후인 수석 부사장은 3세대 라이젠 AI 프로세서에 3가지 핵심 요소가 있음을 강조했다. 하나는 차세대 반도체 설계인 5세대 젠(Zen) 설계를 적용한 것이고 다음은 모바일 환경에 맞춰 조율한 그래픽 처리장치(GPU), 마지막은 50 TOPS 연산 능력을 가진 신경망 처리장치(NPU)다.
8비트 정수 연산의 속도와 반정밀도 부동소수점의 정교함 더한 NPU
신경망 처리장치에는 2세대 XDNA 설계가 적용됐다. AMD가 인수한 자일링스(Xilinx) 기술에 뿌리를 두고 있다는 점이 특징이다. 라이젠 AI 300 프로세서에 적용된 신경망 처리장치는 50 TOPS(초당 1조회 정수연산) 사양이다. 이는 마이크로소프트가 코파일럿+ PC 구동에 적합하다고 강조한 40 TOPS를 뛰어넘는 수치다. 2024년 하반기 해당 칩을 탑재한 노트북 PC는 온-디바이스(On-Device) AI 처리 능력을 충분히 갖췄다고 봐도 무방하다.
1세대 XDNA 설계 기반 신경망 처리장치는 10 TOPS 사양에 불과했다. 이 칩 안에는 인공지능 엔진 타일(이하 AI 타일)이 20개가 배치됐다. 2세대는 이를 32개로 늘렸다. 중요한 것은 인공지능 관련 데이터 구조에 따라 AI 타일을 운용하는 방법이 달라졌다. 기본적으로 각각의 AI 타일이 유연하게 대응하지만, 큰 데이터를 처리할 때는 8개씩 4개 구역으로 나눠 처리한다.
예로 작은 크기의 데이터는 각 AI 타일이 처리하다가 인공지능 기반 영상과 음성 데이터가 등장하면 8개 AI 타일이 하나처럼 뭉쳐 영상과 음성을 처리한다. 추가로 콘텐츠 생성 애플리케이션에서 인공지능 데이터 처리를 요구하면 8+8 형태로 뭉쳐 운영될 수 있다. 작은 데이터는 32개 AI 타일이 각각, 큰 데이터는 1~4개 AI 타일처럼 작동하는 셈이다.
AMD는 2세대 XDNA 설계를 적용하며 기존 대비 타일당 다중누적연산(MACs) 능력을 2배 높였다. AI 타일이 빠르게 메모리에 접근할 수 있도록 용량도 1.6배 늘리는 등 성능 개선에 집중했다. 이 외에도 라이젠 7040 시리즈 대비 컴퓨팅 처리 능력은 5배, 전력 효율은 2배 개선되는 효과를 가져왔다.
또 다른 핵심 요소는 블록 반정밀도(Block FP16) 기술이다. 8비트 정수 연산과 반정밀도(FP16) 부동소수점 연산을 더한 것이다. 8비트 정수 연산은 속도는 빠르지만 정확도는 낮고, 반정밀도 부동소수점 연산은 느리지만 높은 정확도를 갖췄다. 두 장점을 더함으로써 16비트 정확도로 8비트 처리 능력을 제공할 수 있다는 입장이다.
밤시 보파나(Vamsi Bopanna) AMD 인공지능 그룹 수석 부사장은 “자체 역량을 갖춘 소프트웨어 개발사들은 언어 모델을 빨리 처리하는 것을 원한다. 이번에 개발한 블록 반정밀도 부동소수점은 매우 가치 있는 일이 될 것이라 생각한다. 타 신경망 처리장치와 차별화가 된다고 본다”고 말했다.
그래픽 성능 개선 이룬 RDNA 3.5 내장 그래픽 처리장치
온-디바이스 인공지능 시대가 와도 PC라는 사실은 변함이 없다. 인공지능 외에도 생산성 작업이나 게이밍 등 기본기도 갖춰야 한다는 이야기다. AMD는 라이젠 AI 300 프로세서의 내장 그래픽 처리장치(iGPU) 성능 향상을 통해 여러 작업에 대응하도록 준비했다. 특히 기존 3세대 RDNA 설계를 개선한 3.5세대 RDNA 설계로 전력 소모와 성능의 균형을 맞췄다.
3.5세대 RDNA 설계에서는 샘플링 속도를 두 배 높였다. 3D 뼈대 위에 재질, 색상 등을 입히는 텍스처의 샘플 단위를 두 배 높인 형태인데 병렬 처리 구조를 더해 속도를 높였다. 이 외에도 보간과 비교율도 두 배 높였다. 2차 예비 메모리(L2 캐시)와 주 메모리 등에 접근하는 구조도 최적화한 점도 눈길을 끈다.
최종 내장 그래픽 처리장치의 성능은 크게 향상됐다. 이전 세대 동급 제품에 15W 열설계전력(TDP)을 적용한 결과, 3D마크 타임 스파이 테스트에서 최대 32%, 나이트 레이드 테스트에서 19% 성능 향상을 이뤄냈다. 전기를 적게 쓰면서 최대 성능을 낸다는 점은 노트북의 운용 시간에 영향을 주기에 긍정적인 변화라 할 수 있다.
마크 페이퍼마스터(Mark Papermaster) AMD 부사장 및 최고기술책임자는 “3.5세대 RDNA 설계는 모바일 환경에 이상적인 구조다. 감소된 전력 소비로 높은 효율을 구현했다. 최근에는 삼성과 협력해 갤럭시 스마트폰에 맞춰 최적화하고 라이선스를 부여한 바 있다. 다른 시장이지만, 라데온 그래픽 처리장치의 이상적 경험이 가능할 것”이라고 말했다.
AMD는 라이젠 AI 300 프로세서가 적용된 노트북 PC를 여럿 소개했다. 에이수스(ASUS)는 젠북(Zenbook) S16, 터프 게이밍(TUF Gaming) A14, 프로아트(ProArt) P16 등을 공개했다. MSI도 프레스티지(Prestige) 노트북이 전시됐다. 이 외에 레노버, 레이저 등 여러 노트북 제조사를 통해 향후 몇 개월 안으로 150여 이상 제품을 출시할 예정이다. 모두 마이크로소프트 코파일럿+ PC에 대응한다.
글 / IT동아 강형석 (redbk@itdonga.com)