퓨리오사AI, NPU 'RNGD' 양산 돌입··· '한국 넘어 세계시장 향한다'
[IT동아 남시현 기자] AI 반도체 전문 기업 퓨리오사AI가 2세대 신경망 처리 장치(NPU) RNGD(레니게이드)의 양산을 본격화하고 상업화·하이퍼스케일러 공략을 시작한다. 퓨리오사AI는 2024년 8월 미국에서 열린 반도체 설계 퍼런스 ‘핫칩스 2024’에서 RNGD를 처음 공개한 이후 다방면으로 사업 계약 및 협력 구도를 마련해 왔고, 이번 양산을 계기로 제품 인도를 시작한다. 이번에 생산된 1차 양산 물량은 4000장으로 파운드리 협력사인 TSMC가 칩을 제조하고 에이수스가 카드를 제조해 출고된다.

퓨리오사AI는 앞서 1세대 NPU 워보이를 통해 익히 양산 관련 경험을 보유한 기업이며 이번 2세대 RNGD 역시 순조롭게 양산되었다. 제품 공개 이후 퓨리오사AI는 제품 경쟁력 강화를 위해 하드웨어 안정화 및 소프트웨어 스택 고도화에 집중해 왔으며, 이를 토대로 LG AI 연구원의 엑사원 도입 확정, 오픈AI의 gpt-oss 120B 모델 공개 시연 등을 통해 제품 활용 사례를 쌓아왔다.
퓨리오사AI가 데이터센터 및 엔터프라이즈 급 양산에 성공하면서 그록(Groq) LPU, 텐스토렌트 웜홀, 블랙홀, 세레브라스 WSE-3, 삼바노바 SN40L RDU와 같은 글로벌 AI 가속기와 경쟁하게 될 전망이다.

이번에 생산된 RNGD는 단일 카드 형태인 RNGD PCIe 카드, 그리고 8장이 하나의 랙으로 구성된 NXT RNGD 서버 형태로 제공된다. RNGD PCIe 카드는 180W의 열설계전력(TDP)으로 구성돼 공랭으로도 안정적인 냉각이 가능하며, FP8 기준 512테라플롭스의 성능을 발휘한다. 메모리는 48GB HBM3를 탑재하며 최대 1.5TB의 대역폭을 갖춘다. PCIe는 Gen5 16레인 구성이다.

NXT RNGD 서버는 PCIe 카드 8장과 두 개의 AMD 에픽 프로세서를 탑재한 4U 랙마운트 서버로 전체 시스템 소비 전력이 3kW 수준이다. 표준 랙 환경에서 최대 5대까지 장착 가능하며 랙당 최대 20 페타플롭스의 추론 성능을 발휘한다. 메모리는 384GB HBM3와 1TB DDR5 시스템 메모리를 지원하며, 관리용 1G NIC과 25G 데이터 전송용 NIC을 탑재한다. 소프트웨어는 RNGD PCIe와 서버 모두 퓨리오사 SDK 및 LLM 런타임을 활용한다.
RNGD의 성능은 LG AI 연구원을 비롯한 여타의 기업들을 통해 증명된 바 있다. LG AI 연구원은 지난해 7월 엑사원 모델에 RNGD를 적용한 추론 컴퓨팅을 구현했다. 당시 4개의 RNGD 카드를 장착한 단일 서버에서 배치 크기 1로 LG 엑사원 3.5 32B 모델이 4K 컨텍스트 윈도우에서 초당 60토큰, 32K 컨텍스트 윈도에서 초당 50토큰을 처리했다.

또한 오픈AI의 120B 구동 데모로도 성능이 확인된다. gpt-oss-120b 모델은 4비트 부동 소수점 형식인 MXFP4를 사용하며, 퓨리오사AI가 하드웨어 파이프라인 단에서 이를 지원하도록 구성했다. 연결된 데모에서는 출력 토큰당 5.8ms를 달성하도록 최적화되었다. 이는 100B 수준의 대형 LLM도 오프라인 환경에서 RNGD 기반 시스템으로 무리 없이 구현할 수 있음을 시사한다.
퓨리오사AI는 양산 물량 인도를 시작으로 본격적으로 엔터프라이즈, 하이퍼스케일러 시장 공략에 나선다. 이미 한 국내 대기업 계열사 한 곳에서 RNGD 구매를 발주했고, 글로벌 기업들 역시 RNGD 검증을 마치고 채택하는 사례가 늘어나고 있다.
퓨리오사AI, 총소유비용 측면 강조해 추론용 반도체 시장 노린다

퓨리오사AI의 NPU가 겨냥하는 시장은 GPU의 대체가 아닌 GPU와의 공존이다. 현세대 AI 활용 환경에서 GPU는 AI 모델을 구축하는 학습 환경에 널리 쓰이고 있다. GPU를 완성된 형태의 AI 모델을 운영하는 추론 작업에도 쓸 수 있지만 가격대 성능비나 전력 효율, 총소유비용이 지나치게 떨어진다. 따라서 학습에는 GPU가 여전히 쓰이고, 추론에는 NPU를 도입할 수 있도록 제안하는 것이 퓨리오사AI가 생각하는 시장이다.
특히 RNGD는 180W 수준의 TDP로 공랭 기반 서버에서도 안정적으로 운용 가능하며, 표준 환경에서 GPU 기반 시스템 대비 2.5배 높은 ‘랙당 연산 밀도(throughput per rack)’를 제공한다. 이는 동일한 공간과 전력 조건에서 더 많은 AI 추론 워크로드를 처리할 수 있음을 의미한다. 백준호 퓨리오사AI 대표는 “RNGD 양산은 글로벌 AI 3강·반도체 2강 도약을 위한 진일보”라며, “박차를 가해 글로벌 시장 매출 확대를 이뤄내겠다”라고 전했다.
IT동아 남시현 기자 (sh@itdonga.com)

