"소프트웨어·모델 효율이 NPU 성능 좌우···" 퓨리오사AI가 펼칠 전략은?
[IT동아 남시현 기자]
“대다수의 인공신경망 반도체(NPU)가 모델 컴프레션을 지원하지만, 기업에서 직접 시간과 인력을 투입해 개별 모델을 구축해야 해 활용도가 떨어진다. 퓨리오사AI는 이 문제를 제조사의 과제로 보고 직접 수백에서 수천 개의 모델을 최적화하고 매뉴얼처럼 배포할 계획이다. 이것이 퓨리오사AI가 알고리즘 팀을 운용하는 이유다”
AI 가속기, 인공지능 반도체에서 중요한 것은 하드웨어 성능이다. 인공지능을 설계하고 개발하기 위해서는 하드웨어의 성능이 좋아야 하고, 소프트웨어는 이를 활용하기 위한 도구에 가깝다. 하지만 효율이 좋고 뛰어난 하드웨어도 소프트웨어 지원이 미비하면 제성능을 낼 수 없다. 인텔 조차 ‘하드웨어는 25%, 소프트웨어가 75%’라는 기조로 인공지능 생태계를 구축하고 있다.
퓨리오사AI(FuriosaAI) 알고리즘 팀의 모델 컴프레션 파트를 이끄는 고병건 파트 리더도 인터뷰 내내 소프트웨어의 중요성을 강조했다. 왜 퓨리오사AI는 직접 소프트웨어 생태계를 만드는지, 또 모델 컴프레션 팀이 별도로 구성된 이유와 의미는 무엇인지에 들어볼 시간을 가졌다.
알고리즘 공학과 모델 압축, 인공지능 개발 효율 높이는 절차
고병건 파트 리더는 알고리즘 팀 소속으로 모델 컴프레션(압축), 양자화 모델링 업무를 맡고 있다. 올해로 10년차인 그는 증강현실 장치의 초소형 디스플레이 모듈을 만드는 팀으로 경력을 시작했고, 이후로 칩스앤미디어에서 심화학습을 활용해 초고화질을 개선하는 알고리즘 개발 업무를 맡았다. 알고리즘은 어떤 문제를 해결할 때 원하는 결과로의 출력을 유도하는 규칙의 집합인데, 인공지능 분야에서는 학습 및 처리 과정을 최적화하기 위해 사용된다.
이후 고병건 파트 리더는 성장하는 시장에 뛰어들겠다는 생각으로 이직을 결정했고, 낯설지만 성장 가능성이 충분한 인공신경망 반도체 업계에 알고리즘 엔지니어라는 직함으로 뛰어들었다. 현재 그는 알고리즘 제작은 물론 이를 효율적으로 압축하는 모델 컴프레션을 다루며, 더욱 미세한 단위로 알고리즘을 조정하는 양자화 모델링까지 진행하고 있다.
알고리즘 팀의 구성과 역할을 물어봤다. 고병건 파트 리더는 “퓨리오사AI의 알고리즘 팀은 NPU 위에서 동작하는 심화학습의 알고리즘을 최적화하는 엔지니어다. 팀은 크게 애플리케이션 파트와 모델 컴프레션 파트로 나뉜다. 애플리케이션 파트는 모델 알고리즘을 레퍼런스 키트로 구축하는 팀으로, 쉽게 말해 인공지능이 쓰이는 다양한 환경에서 바로 활용할 수 있는 기본 도구를 만드는 팀이다. 모델 컴프레션 파트는 모델을 말 그대로 압축하는 일을 하는데, 연산 자체는 그대로 두면서 알고리즘은 경량화해 연산 효율은 올리고 소비전력은 낮추는 역할을 한다”라고 대답했다.
“엔비디아와 비슷한 전략 추구··· 소프트웨어 제공에 방점”
현재 전 세계 인공지능 반도체 수요는 엔비디아가 80% 이상 독점하고 있다. 엔비디아의 그래픽 처리 유닛(GPU)이 단순 연산에 최적화된 장점도 있지만, 레퍼런스 키트와 모델 컴프레션 도구 등을 제공해 생태계를 닦아왔기에 가능한 결과였다. 덕분에 연구자들이 직접 모델을 만들고, 압축하는 과정까지 가능하다고 한다. 동종의 NPU 업계에서 잘 갖추지 않는 모델 컴프레션 팀을 구축한 이유도 퓨리오사AI가 엔비디아와 비슷한 전략을 추구하기 때문이다.
예를 들어 컴퓨터를 구매했으면, 이를 어떻게 활용할지는 구매자의 몫이다. 구매자가 특정 조건에 맞춰서 쓰려면 본인이 관련 기술을 습득하고 찾아야 한다. NPU를 활용하는 것, 그리고 이를 압축해서 효율화하는 과정도 모두 구매자의 역할이다. 엔비디아는 이 과정이 쉽도록 도구를 제공하는 수준인데, 퓨리오사AI는 한발 더 나아가 자주 쓰는 도구를 직접 개량해서 내놓겠다는 입장이다. 이미 퓨리오사AI는 국내 NPU 업계로는 유일하게 소프트웨어 개발 도구(SDK)를 제공하고 있고, 그다음 절차가 모델 컴프레션 킷이다.
고병건 파트 리더는 “인공지능 추론용 NPU 업계에서 모델 컴프레션 툴킷을 제공하는 경우는 거의 없고, 그마저도 초기 단계다. 엔비디아가 제공하긴 하나 진척도가 높진 않고, 퀄컴이나 인텔 정도가 압축용 툴킷을 제공하고 있다. 아마도 퓨리오사AI의 모델 컴프레션 진척도는 세 개 기업 다음 수준이라 보고 있다”라고 덧붙였다.
이 대목에서 퓨리오사AI의 철학을 엿볼 수 있다. 퓨리오사AI가 레퍼런스 키트나 모델 컴프레션 키트를 제공해도 그 자체로는 수익을 낼 수 없다. 그럼에도 불구하고 최적화된 모델을 제공하면 타사에 비해 유리한 고지를 차지할 수 있고, 연구자나 개발자가 관련 생태계에 쉽게 진입할 수 있다는 장점이 있다.
개별 기업의 경우 모델 개발과 모델 압축에 필요한 비용을 절감할 수 있고, 또 NPU를 효율적으로 운용할 수 있다는 장점이 있다. 특히나 하드웨어를 설계하는 쪽에서 직접 모델 컴프레션에 관여하다 보니 개별 기업이 진행하는 결과보다 훨씬 효율적이고 고차원적으로 추진할 수 있다는 점도 빼놓을 수 없다.
2세대 반도체 ‘레니게이드’에서 모델 컴프레션 진가 발휘
고병건 파트 리더는 내년 초 공개될 2세대 반도체, 레니게이드를 위한 모델 컴프레션 키트 개발에 한창이다. 고병건 파트 리더는 “1세대 NPU 워보이의 가장 큰 강점은 SDK 제공이다. SDK가 있으면 컴퓨터 언어를 변환하는 컴파일 과정이 손쉽게 자동화된다. 또한 실질적으로 제공되는 값이 홍보용 수치가 아닌 실제 결괏값이기 때문에 고객이 원하는 결과를 그대로 받을 수 있다. 사용자가 맞춤형 개발을 할 수 있고, 스펙 경쟁이 아닌 효용성 관점에서 이득이다”라면서 “K-클라우드 프로젝트의 AI 바우처 사업에서 48%의 기업이 워보이를 선택한 이유에도 영향을 미쳤을 것”이라고 말했다.
이어서 “SDK가 준비돼있는 만큼, 2세대 NPU 레니게이드는 더욱 상위 계층의 소프트웨어를 활용할 수 있을 것이고, 또 모델 컴프레션 툴킷까지 완성돼 배포되면 활용도는 한층 높아질 것이다. 특히 레니게이드는 5nm 공정 기반의 빅칩이 탑재되고, 또 초고대역폭의 HBM3 메모리가 탑재돼 대형언어 모델은 물론 다양한 인공지능 연구에 높은 효율을 보일 것”이라고 덧붙였다.
레니게이드를 만들어가는 과정도 알고리즘 개발 측면에서 강점이라고 말한다. 고병건 파트 리더는 “알고리즘의 효율을 높이려면 개발 과정 전반에 개입하고 최적화해야 한다. 퓨리오사AI는 프로덕트, 디자인, 하드웨어, 소프트웨어, 데이터 등 서로 다른 개발팀이 긴밀하고 정밀하게 조율하며 NPU를 설계하고 있어서 알고리즘 팀이 개입하기가 수월하다. 물론 알고리즘 자체가 시스템 설계보다 추상적이므로 모든 절차에서 적절하게 소통해야 하는데, 팀 자체가 유기적으로 개입할 수 있어서 효율적으로 작업에 임하고 있다”라고 말했다.
“인공지능 상용화할수록 NPU가 친환경 기술로 떠오를 것”
마지막으로 고병건 파트 리더는 인공지능 업계 엔지니어로서의 역할과 사명감에 대해 말했다. 고병건 파트 리더는 “내가 퓨리오사AI를 선택한 이유는 기후위기, 그리고 탄소중립과 관련돼 있다. 인공지능이 발전하면 심화학습에 대한 수요는 늘 수밖에 없고, 전력이나 자원 소모량도 커질 것이다. 심화학습 알고리즘의 규모도 매년 커지고 있고, 이를 효율적으로 구동하는 게 점점 더 중요해지는 상황”이라면서, “머지않아 NPU와 최적화된 모델이 GPU와 비효율적 모델을 대신하는 친환경, 지속가능한 기술로 인식될 것이다. 지금 이 길이 새로운 시장과 기후 위기를 극복하는 길이라는 확신을 갖고 이 일을 해 나갈 것”이라며 대화를 마무리했다.
글 / IT동아 남시현 (sh@itdonga.com)