백준호 퓨리오사AI 대표 "AI 반도체, 지속가능성 고려한 설계 필요"

남시현 sh@itdonga.com

[IT동아 남시현 기자] 11월 16일, 글로벌 반도체 설계자산 기업 Arm이 인터컨티넨탈 서울 코엑스 호텔에서 ‘Arm 테크 심포지아(Tech symposia)’ 행사를 개최했다. 이번 행사는 Arm의 반도체 자산을 소개함과 더불어 국내외 반도체 공급망 체인의 다양한 파트너사를 조명하기 위해 개최됐다.

행사는 이안 스미스(Ian Smythe) Arm 프로덕트 마케팅 부사장의 기조연설을 시작으로 백준호 퓨리오사AI 대표, 백준현 자람 테크놀로지 CEO가 파트너사 키노트를 맡았으며, 사이먼 텡 Arm 오토모티브 사업부 GTM(Go-To-Market) 아태지역 시니어 디렉터가 심층 세션을 진행했다.

11월 16일, 인터컨티넨탈 서울 코엑스 호텔에서 Arm 테크 심포지아 행사가 열렸다 / 출처=IT동아
11월 16일, 인터컨티넨탈 서울 코엑스 호텔에서 Arm 테크 심포지아 행사가 열렸다 / 출처=IT동아

아울러 Arm, LG전자, MDS 테크, 르네사스, 딥엑스 등 핵심 파트너 기업들이 기술 트랙을 진행했으며, 르네사스, MDS테크, 리얼텍, 노타AI, 휴인스, GUC, 기가디바이스, 가온칩스, 코아시아, 케이던스, 에이작랜드 등이 부스를 마련했다. 아울러 Arm과 중소벤처기업부, 서울대학교가 함께하는 ‘Arm 플렉시블 액세스’ 지원 기업들도 기술을 소개하는 자리를 가졌다.

백준호 퓨리오사AI 대표 “에너지 효율, 지속가능성을 위해 중요”

백준호 퓨리오사 AI 대표가 NPU에 대한 기술 개요를 설명하고 있다 / 출처=IT동아
백준호 퓨리오사 AI 대표가 NPU에 대한 기술 개요를 설명하고 있다 / 출처=IT동아

퓨리오사AI는 인공지능 애플리케이션을 효율적으로 처리하기 위한 데이터센터용 AI 반도체를 개발하는 팹리스 기업이다. 백준호 대표는 ‘챗GPT를 위한 프로그래머블이 가능한 고성능·고효율 AI 추론 칩’을 주제로 발표를 진행했다. 백준호 대표(이하 백 대표)는 “GPT 모델 처리하는 과정을 단순화하면 96개의 디코더라는 블록들을 1만 곱하기 5만 정도의 연산을 구동하는 수준이다. 현재는 이 연산을 분할하고 병렬로 나눠서 처리하고 있는데 이를 어떻게 효율화할지가 업계의 과제”라며 발표를 시작했다.

백 대표는 프로그래밍 및 확장성, 와트당 성능, 손쉬운 전개 세 가지 요소를 핵심으로 꼽았다 / 출처=IT동아
백 대표는 프로그래밍 및 확장성, 와트당 성능, 손쉬운 전개 세 가지 요소를 핵심으로 꼽았다 / 출처=IT동아

백 대표는 “다양한 AI 모델들이 더 정확한 결과를 내는 방향으로 발전하고, 이를 보조하는 모델들이 결합되어서 새로운 앱 형태로 진화하고 있다. 퓨리오사AI는 대규모 데이터 처리를 위한 프로그래밍 및 확장성 확보, 우수한 와트당 성능, 대규모 클라우드 및 온프레미스 환경에서의 손쉬운 전개 세 가지 요소를 중점적으로 보고 칩을 만들고 있다”라고 말했다.

퓨리오사AI는 현재 1세대 칩인 워보이를 양산하고 있고, 내년 2분기에 2세대 칩인 레니게이드를 출시한다 / 출처=IT동아
퓨리오사AI는 현재 1세대 칩인 워보이를 양산하고 있고, 내년 2분기에 2세대 칩인 레니게이드를 출시한다 / 출처=IT동아

이런 기준으로 만들어진 제품이 인공신경망 반도체(NPU)인 워보이고, 내년 2분기를 목표로 곧 2세대 칩인 레니게이드를 출시할 예정이다. 백 대표는 “1세대 칩은 컴퓨터 비전 영역에서 처리하는 데 중점을 뒀고, 2세대 칩은 AI 작업을 모두 포괄할 수 있다. 레니게이드는 현시점에서 AI 반도체로는 몇 안 되는 HBM3 기반 하드웨어로, 대형언어모델과 생성형 AI는 물론 전력 효율 측면에서 우수한 제품이 될 것”이라고 설명한다.

NPU로 저전력·고성능 다 잡을 것

백 대표가 제시한 2세대 칩 레니게이드의 성능 표에 따르면, 레니게이드는 인공지능 연산을 처리하는 속도가 BF16 기준 256테라플롭스며, FP8 기준 512테라플롭스 수준이다. 메모리는 초당 1.5TB 대역폭의 HBM3 48GB를 탑재하며, 소비전력은 150W 수준이다. 이는 구글의 TPU나 AWS의 인퍼런시아 2와 비교해도 연산 성능은 더 높으면서, 소비전력은 더 적은 수준이다.

2세대 칩 레니게이드 및 레니게이드-S와 타사 AI 반도체와의 성능 비교 / 출처=IT동아
2세대 칩 레니게이드 및 레니게이드-S와 타사 AI 반도체와의 성능 비교 / 출처=IT동아

가장 수요가 많은 엔비디아 H100의 경우 레니게이드보다 성능이 세배 가량 높지만, 소비 전력도 350W로 높다. 하지만 H100의 대당 가격이 6~7천 만원에 육박하는 것을 감안하면 실질 효율에서는 큰 차이가 날 수 있다.

퓨리오사AI는 하드웨어 뿐만 아니라 소프트웨어의 역할도 중요하게 본다. 백 대표는 “우리 역시 소프트웨어의 역할을 중요하게 보고, 상위 수준에서는 파이토치 2.0과 오닉스 등 대중적인 도구를 지원하고, 하드웨어 수준에서는 보다 추상적인 기술 모델들을 꾸준히 추가하는 방식으로 솔루션을 제공할 것이다”라고 덧붙였다. 실제로 퓨리오사AI는 1세대 반도체용 소프트웨어 개발 도구(SDK)를 배포하고 있으며, 추후 AI 모델을 직접 효율화, 최적화해서 제공할 계획이다.

마지막으로 백준호 대표는 “AI 코어를 효율적으로 다룰 수 있고, 또 연산 처리를 어떻게 소비 환경에 맞출 것인지에 대한 계획을 구상하고 있다. 장기적으로는 Arm의 네오버스 컴퓨팅 서브시스템(CSS) 플랫폼 등 업계 표준 절차를 참고해 CPU와 NPU의 구성을 유기적으로 합칠 수 있으리라 본다”라고 정리했다.

Arm, 표준 생태계로 AI 시장 지배력 강화 나서

이안 스미스(Ian Smythe) Arm 프로덕트 마케팅 부사장이 엔비디아 GH 그레이스 호퍼 슈퍼칩이 Arm의 네오버스 컴퓨팅 서브시스템을 기반으로 설계됐다고 설명하고 있다 / 출처=IT동아
이안 스미스(Ian Smythe) Arm 프로덕트 마케팅 부사장이 엔비디아 GH 그레이스 호퍼 슈퍼칩이 Arm의 네오버스 컴퓨팅 서브시스템을 기반으로 설계됐다고 설명하고 있다 / 출처=IT동아

반도체 업계는 빠르게 변하는 시장의 요구사항을 반영하면서도, 최적화된 효율과 소비전력을 모두 만족하는 방법을 마련하기 위해 설계 과정을 표준화하는 추세다. 올해 6월 공개된 엔비디아의 GH200 그레이스 호퍼 슈퍼칩도 Arm의 네오버스 컴퓨팅 서브시스템을 네 개로 묶은 다음, 엔비디아의 GPU를 결합해 개발 속도를 끌어올렸다.

특히 네오버스는 범용 컴퓨팅 플랫폼이어서 추후 새로운 세대가 나오면 기존의 바탕을 토대로 빠르게 업그레이드할 수 있다. 퓨리오사AI가 CSS에 관심을 가지는 이유도 이 때문일 것이고, 또 이렇게 효율적이고 통일된 방안을 활용해야 업계 전반이 지속가능성을 실천할 수 있을 것이다.

Arm 테크 심포지아 서울은 16일에 종료되며, 추후 중국 심천, 베이징, 상하이에서 이어서 열릴 예정이다. Arm 테크 심포지아에 대한 자세한 정보는 Arm 홈페이지를 통해 확인할 수 있다.

글 / IT동아 남시현 (sh@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.