서울대, AI 반도체 포럼 개최…“핵심 화두는 전력 효율성”
[IT동아 김예지 기자] 서울대학교가 12월 3일 글로벌공학교육센터에서 ‘인공지능(AI) 반도체 개발 동향과 도전 과제’를 주제로 제2회 ‘SAISF(SNU AI Semiconductor Forum) 2024’을 개최했다. 올해 2회를 맞는 이 포럼은 서울대학교 AI 반도체 대학원이 그간 성과를 공유하고, 반도체 대기업 및 스타트업의 기술 개발 동향을 공유하는 장이다.
AI 반도체 개발 동향 및 미래 전략을 주제로 ▲김정욱 딥엑스 부사장 ▲백준호 퓨리오사AI 대표 ▲임의철 SK하이닉스 펠로우 ▲정무경 ㈜디노티시아 대표 ▲이진원 하이퍼엑셀 CTO ▲손교민 삼성전자 마스터가 발표했다. 이어 AI 반도체 연구 개발(R&D) 동향으로 ▲안정호 서울대 융합과학기술대학원 교수 ▲전동석 서울대 융합과학기술대학원 교수 ▲이진호 서울대 전기정보공학부 교수가 발표했다.
이날 서울대는 행사장에 반도체 분야 11개사 부스 전시를 비롯해 시스템반도체 14개사 채용박람회 및 기업설명회를 진행했다. 주요 기업으로는 ▲라온피플 ▲모빌린트 ▲바움디자인시스템즈 ▲반암 주식회사 ▲보스반도체 ▲수퍼게이트 ▲스카이칩스 ▲아날로그AI ▲주식회사 아이디어스 ▲오픈엣지테크놀로지 ▲텔레칩스 ▲퓨리오사AI ▲디노티시아 ▲하이퍼엑셀 ▲잇다반도체 등이 참여했다.
세미나에 앞서 서울대 AI 반도체 대학원은 딥엑스와 개발 중인 AI 반도체의 객관적·정량적 평가를 위한 성능 시험(벤치마크) 플랫폼을 소개했다. 이는 온디바이스 AI(엣지 AI)에 필수적인 항목을 더해 AI 반도체의 실제 사용 환경 평가를 목표한다. 서울대는 “AI 반도체 업체들과 협력해 제품을 인증함으로써 ‘엠엘퍼프(MLPerf)’ 등 글로벌 AI 반도체 벤치마크보다 신뢰성을 확보해 국내 산업 표준화 경쟁력을 확보하겠다”는 목표를 밝혔다.
이어 AI 반도체 대기업 및 스타트업들의 발표가 진행됐다. 각 기업이 다룬 주제는 다르나, 모두 성능 및 비용 대비 칩 전력 효율성 확보 전략으로 귀결된다. 점차 거대언어모델(LLM)을 비롯해 AI 추론 영역으로 관심사가 옮겨가는 가운데, AI 반도체 업계의 도전 과제는 반도체 성능을 높이면서도 그래픽처리장치(GPU)의 한계점으로 꼽히는 높은 비용 및 전력 소모량을 해결하는 것이다.
이날 국내 AI 반도체 팹리스 딥엑스는 엣지, 퓨리오사AI는 서버 AI 반도체에 초점을 맞췄다. 딥엑스는 고성능, 저전력, 저비용 임베디드 AI 솔루션 ‘DX-M1’과 ‘DX-M2’를 소개하며, 각 역할에 맞는 칩들의 통합적인 활용을 강조했다. 그래서 딥엑스는 엔비디아 GPU를 대체하기보다는 역할을 분담하는 데 의미를 둔다. 김정욱 딥엑스 부사장은 “딥엑스는 기존의 클라우드에서 처리하던 LLM에서 엣지 단으로 옮겨온 소형언어모델(SLM)을 처리하는 솔루션을 만든다”며, “DX-M1은 AI 비전 전용, DX-M2는 SLM 전용으로, 사용자는 칩을 결합해 하이브리드 솔루션으로 활용할 수 있다”고 설명했다.
또한 김정욱 부사장은 “삼성전자 5나노 공정으로 양산되는 DX-M1은 25 TOPS(초당 25조 회 연산) 컴퓨팅 성능의 신경망처리장치(NPU)로, 엔비디아 대비 실효 성능이 5.4배가 좋다”며, “내년 FPGA 데모로 공개될 차세대 DX-M2 칩은 엔비디아 젯슨 나노보다 정확도가 높으면서 비용은 20배 절감할 수 있다”고 설명했다. DX-M1은 지난 10월 ‘버터 벤치마크’ 실험에서 ‘Yolo5s’ 모델을 초당 30번 추론하는 작업에도 타사가 60℃를 넘었던 것에 비해 35.5℃를 유지해 안정적인 성능을 선보인 바 있다. 또한 딥엑스는 LG유플러스의 익시(ixi) 모델을 DX-M2로 구동하는 협업을 진행 중에 있다.
퓨리오사AI는 지난 8월 공개한 2세대 반도체 레니게이드(RNGD)를 소개하고, AI 반도체의 추론 영역에서의 효율을 강조했다. 백준호 퓨리오사AI 대표는 “AI 에이전트의 증가를 비롯해 추론 영역은 더욱 늘어나며, 퓨리오사AI는 비용 및 전력을 절감하는 지속가능한 컴퓨팅 칩 개발에 주력한다”고 말했다. 이러한 기조에서 탄생한 레니게이드는 열설계 전력(TDP)이 150~200W로, 기존 데이터센터 인프라에서 충분히 동작 가능한 수준을 만족한다. 엔비디아 L40S와 비슷한 성능이면서도 대비 최대 60% 이상 전력 효율이 높다. 또한 H100 PCI 버전 성능과 견주어도 40~50%에 준하며, 고대역폭 메모리(HBM)3를 탑재해 성능을 대폭 높였다.
이날 백준호 대표는 소프트웨어 스택의 중요성도 강조했다. 그는 “AI 추론에서의 효율은 하드웨어뿐만 아니라 전체적인 소프트웨어와 알고리즘도 관여한다. 따라서 유연성 및 호환성을 기반으로 전체 성능을 잃지 않도록 하드웨어를 설계하는 것이 중요하다”고 주장했다. 이를 위해 퓨리오사AI는 파이토치 2.0을 시작으로 소프트웨어 스택을 제공할 계획이다.
하이퍼엑셀은 LLM 전용 추론 반도체 ‘언어 처리 장치(LPU)’를 소개했다. 이진원 하이퍼엑셀 CTO는 “하이퍼엑셀은 생성형 AI 도입을 원하는 일반 기업들이 활용할 수 있도록 LLM 특화 저비용 고성능 칩을 추구한다”고 설명했다. LPU는 GPU와 달리 LLM 연산 처리 과정에서 메모리 대역폭의 효율을 극대화한 점이 특징이다. 이를 위해 HBM보다 메모리 대역폭이 작지만 대신 용량이 크다는 장점이 있는 LPDDR 메모리를 활용했다. 이로써 데이터 전송 속도를 높이고, 전력 효율을 꾀한다.
이 회사는 올해 1월 설립 이후 만 1년이 되지 않은 시점에 서버 제품 ‘오리온’을 출시했다. 이진원 CTO는 “LPU 8개를 탑재한 오리온은 AMD와의 협업해 공식 검증을 통과하고, 국내 최초로 생성형 AI 라마 3를 구동한 이력이 있다”며, “서버 제품 이전 설계자산(IP) 검증을 위한 실리콘 프로토타입 칩이 삼성 4 나노 공정으로 패키징 되어 올해 안에 나올 예정”이라고 덧붙였다.
한편, 이날 삼성전자와 SK하이닉스는 AI가 요구하는 차세대 메모리 반도체 HBM에 대한 전략을 발표했다. 두 회사는 메모리 내부에서 데이터를 처리하는 ‘PIM(Processing-In-Memory)’ 기술을 활용한다. 먼저 임의철 SK하이닉스 펠로우는 GDDR6 기반 AiM(액셀러레이터 인 메모리) 아키텍처로 설계된 ‘AiMX’을 소개했다. AiMX는 프로세싱 유닛의 속도를 가속하는 FPGA 칩으로, GDDR6에 PIM 기술을 적용해 데이터 이동을 최소화했다. AiMX은 LLM에서 입력에 대한 답변을 생성하는 단계인 제너레이션 스테이지(Generation Stage)에서 발생하는 메모리 병목 현상을 해결한다. 임의철 펠로우는 “서버, 엣지 LLM 모두 결국 메모리 대역폭과 전력 효율 문제에 직면하고 있으며, PIM은 양쪽 모두 해결할 수 있는 방법”이라고 말했다.
손교민 삼성전자 마스터도 “PIM 기술은 데이터 이동을 줄이는 동시에 내부 메모리 대역폭을 최대로 활용해 성능을 높이는 데 초점이 맞춰져 있다”고 말했다. 그는 “고객이 기존 시스템을 변경하지 않고도 LPDDR-PIM 기술을 도입할 수 있도록 지원한다”며, “HBM에 PIM을 적용했을 때 기존 D램의 인터페이스 등을 유지하면서도 지연속도를 줄이고, 전력도 더 커지지 않았다”고 말했다. 또한 앞으로 “LPDDR을 활용한 PIM은 온디바이스AI에서 유리해 스마트폰, 노트북, 엣지 서버 등으로 활용처가 넓어지고 있다”며, “LPDDR은-PIM을 개발할 때, D램 안에 PIM 기능을 넣어 전체 시스템에서 효율성을 확보할 수 있는지 유효성을 따지는 것이 중요해지고 있다”고 말했다.
IT동아 김예지 기자 (yj@itdonga.com)