퓨리오사AI, NeurIPS 2025서 '지속가능한 AI'를 위한 RNGD NPU 선보여

남시현 sh@itdonga.com

[IT동아 남시현 기자] 지난 12월 2일에서 7일 사이, 미국 캘리포니아 주 샌디에이고에서 신경망 및 인공지능 분야에서 가장 권위적인 학술 행사인 NeurIPS(신경정보처리시스템학회) 2025가 개최됐다. NeurIPS는 1987년 신경망 네트워크 연구를 위해 생물학, 물리학, 컴퓨터 과학자들의 모임에서 시작해 지금은 세계 최대 규모의 인공지능 학술 행사로 평가된다.

NeurIPS는 구글의 학술검색 시스템 ‘구글 스칼라’의 컴퓨터과학/AI 분야에서 네이처, 사이언스 같은 최상위 과학 잡지와 같은 수준의 영향력을 인정받고 있으며, 올해는 2만 1575편이 제출돼 24.52%인 5290편이 채택됐다. 오늘날 데이터 마이닝 및 기계학습의 시작점으로 평가받는 알렉스넷(AlexNet), 자연어 처리의 혁명이라 평가받는 Word2Vec, LLM의 가장 핵심 기술인 트랜스포머 모델이 모두 NeurIPS에서 공개된 논문이다.

올해 NeurIPS의 핵심 키워드는 ▲오픈AI의 o1 모델과 같이 단계적으로 생각하는 추론(Reasoning) 능력 ▲ 클라우드 연결 없이 스마트폰 및 노트북에서 구동되는 온디바이스 AI ▲ AI 윤리와 관련된 AI 안정성 및 정렬이 화두였다. 국내 기업으로는 네이버가 초거대 AI 효율성과 로보틱스 등과 관련해 10편의 논문을 발표했고, 비바리퍼블리카(TOSS)도 연합학습 최적화 논문이 등재돼 눈길을 끌었다.


강지훈 퓨리오사AI 최고연구책임자 / 출처=퓨리오사AI
강지훈 퓨리오사AI 최고연구책임자 / 출처=퓨리오사AI

한편 AI 반도체 기술 기업 퓨리오사AI는 ‘실버 파빌리온’으로 참가했으며 강지훈 퓨리오사AI 최고연구책임자(CRO)가 ‘실리콘부터 모델을 위한 AI 효율성 최적화 방안(Optimizing AI Efficiency from Silicon to Model)’을 주제로 스포트라이트 발표를 진행했다.

강지훈 CRO는 “데이터센터가 처리할 수 있는 데이터의 처리량은 전력 소비량과 상관관계가 있다. 하이퍼스케일러나 AI 데이터센터 운영 기업들이 발전소에 투자하려는 이유도 결국 데이터센터의 처리량을 늘리기 위해서다”라면서, “같은 전력 소모로 더 많은 작업을 처리하도록 만드는 게 업계의 과제”라고 설명했다.

이어서 “하지만 하드와이어드(반도체 설계 시 회로가 물리적인 배선으로 구현되고 변경할 수 없는 형태)로 반도체를 만들면 제작 비용도 높고 시간도 오래 걸린다. 결국 성능 최적화 측면에서 데이터 묶음을 병렬로 처리하는 GPU를 쓸 것인지, 대규모 행렬 연산(Systolic Array)에 특화된 전용 반도체를 쓸 것인지 결정해야 한다”라고 설명했다.


RNGD는 데이터가 정해진 흐름대로 처리되는 시스톨릭 어레이 방식의 단점을 잡아낸 형태의 반도체다 / 출처=퓨리오사AI
RNGD는 데이터가 정해진 흐름대로 처리되는 시스톨릭 어레이 방식의 단점을 잡아낸 형태의 반도체다 / 출처=퓨리오사AI

GPU는 여러 메모리 계층 구조로 이뤄져있고 유연한 데이터 흐름을 제공한다. 전역 메모리에서 로컬 메모리로 이동하는 등의 작업에 적절하다. 덕분에 외부의 고대역폭 메모리(HBM)에서 내부 메모리(SRAM)로 데이터의 이동이 자유롭다는 장점이 있지만 추가적인 실행 시간과 소비전력이 요구된다. 이런 특성 덕분에 AI 모델을 훈련하는 작업에는 유리하나, 상대적으로 추론 용도로 사용하기에는 비용 투입대비 효율이 떨어진다.

시스톨릭 어레이 방식은 구글 TPU나 AWS 트레이니엄 등 특정 작업에 전용으로 설계된 제품을 의미한다. 최근 제미나이 3.0 프로가 TPU로 훈련되며 시스톨릭 어레이의 가능성이 다시 주목받고 있지만 데이터 흐름이 고정돼 있다. 개별 연산 효율은 높으나 데이터 흐름이 유연하지 못해 행렬 곱셈 같은 특정 연산에만 제한적으로 쓰인다. 또한 기업이 필요에 맞춰 설계하는 까닭에 특정 기업에서 대규모로만 채용한다는 차이가 있다.

퓨리오사AI는 TCP의 효율적인 활용을 위해 소프트웨어 생태계도 꾸준히 확보 중이다 / 출처=퓨리오사AI
퓨리오사AI는 TCP의 효율적인 활용을 위해 소프트웨어 생태계도 꾸준히 확보 중이다 / 출처=퓨리오사AI

퓨리오사AI의 RNGD는 텐서 축약 프로세서(TCP)를 통해 GPU와 시스톨릭 어레이의 균형점을 제공한다. 강지훈 CRO는 “TCP에서는 SRAM이 여러 슬라이스로 나뉘고, 슬라이스된 데이터가 각각 추출되는 방식으로 라우팅 된다. 데이터 패키지는 전달되거나 여러 장의 슬라이드로 배분된다”라고 설명했다.

쉽게 말해 시스톨릭 어레이는 데이터가 한 방향으로 흐르지만 RNGD는 데이터의 방향을 구성할 수 있다. SRAM을 여러 슬라이스 단위로 나눠 관리하고, 데이터를 순서대로 전달만 하는 게 아니라 두 장에서 최대 여덟 장까지 함께 배분한다. 기존 시스톨릭 어레이가 정해진 크기의 행렬만 처리할 수 있었다면 RNGD는 어떤 크기의 행렬 연산이 들어와도 나눠서 처리하므로 하드웨어 자원을 최대한 채워서 이용할 수 있다.

강지훈 CRO는 “RNGD의 데이터 흐름은 데이터를 세세하고 효율적으로 처리할 뿐만 아니라 소프트웨어 관리 측면에서도 용이하다. 파이토치에서 수행하는 고수준의 집약적인 연산을 바로 아키텍처에 매핑할 수 있고, 쉽게 성과를 확인할 수 있다. 결과적으로 퓨리오사AI는 LLM 서비스를 포함하는 자체적으로 구축한 소프트웨어 스택을 제공하고 있다”라고 말했다.


같은 15kW 렉을 기준으로 했을 때 엔비디아 H100 대비 약 3.5배 높은 토큰 생성 효율을 보여준다 / 출처=퓨리오사AI
같은 15kW 렉을 기준으로 했을 때 엔비디아 H100 대비 약 3.5배 높은 토큰 생성 효율을 보여준다 / 출처=퓨리오사AI

TCP의 기술적 정의 이후에는 내년 1월부터 2만 장의 RNGD 칩을 양산한다고 밝혔으며, 전력 효율에 대해서 한번 더 설명했다. 강지훈 CRO는 “최근 데이터센터에서 사용하는 렉은 평균 18kW 정도를 넘기 어려운데, 공랭식으로는 최대 출력이다. RNGD는 15kW 렉을 기준으로 엔비디아 H100 시스템보다 3.5배 높은 토큰을 생성할 수 있다”라면서, “전력 효율을 높이면 데이터 센터의 전력 밀도도 더 높일 수 있다. 차세대 제품은 180W인 열설계전력(TDP)보다 더 높은 400W급의 제품이 될 것”이라고 설명했다.

마지막으로 강지훈 CRO는 “RNGD는 클라우드 환경에서 효율적으로 관리하고 배포할 수 있도록 쿠버네티스를 지원하며, 저수준 접근 API를 제공해 전문 개발자가 직접 최적화된 컴파일러나 시스템을 구축할 수 있다”는 점도 덧붙였다.

AI 업계 화두로 떠오른 ‘지속가능한 AI 연산’

NeurIPS가 AI 업계 최대 학술행사로 떠오르면서 AI 윤리와 관련된 다양한 책임 논의도 진행된다. 대표적으로 ‘머신러닝으로 기후 변화에 대처하기’라는 워크숍에서는 기존에 머신러닝이 기후에 미치는 영향에 초점을 맞췄다. 기존에 머신러닝으로 기후 관련 해법을 찾는 접근법이 아니라 AI 모델을 구축할 때 기후 관련 이점 및 비용에 대해 논의하고, 이를 위한 효과적인 AI 접근법을 도출한 것이다.

연관 논문에 에너지나 기후 예측 부분이 많긴 했지만 데이터센터의 지속 가능성 향상과 탄소배출량 감소를 위한 작업량 분산, 대규모 탄소배출 감축을 위한 LLM 접근법 등 기존 AI 구축 방식에 대한 연구 결과도 많았다. 결론은 ‘AI를 구축하는데 필요한 전력 소모를 효율적으로 해야 한다’로 귀결되며 AI 반도체의 효율성을 끌어올리는 것도 당연히 해당된다.

퓨리오사AI같은 NPU기업들이 NeurIPS에 참가하는 이유도 이런 해법을 제시하기 위함이다. 내년 1월부터는 본격적으로 RNGD가 양산되며 한국을 비롯한 전 세계의 AI 데이터센터에 도입되어 탄소배출 저감은 물론 AI의 효율적인 추론에 기여하게 된다. ‘지속가능한 AI 연산’이라는 주제가 주목받을수록 RNGD와 같은 고효율 AI 반도체에 대한 집중도도 향상될 전망이다.

IT동아 남시현 기자 (sh@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.