ISPASS 2026 기조연설 나선 정명수 파네시아 대표 “AI 데이터센터 메모리 병목 해결사는 CXL”

강형석 redbk@itdonga.com

정명수 파네시아 대표가 ISPASS 2026 기조연설을 진행했다 / 출처=IT동아
정명수 파네시아 대표가 ISPASS 2026 기조연설을 진행했다 / 출처=IT동아

[IT동아 강형석 기자] ISPASS(IEEE International Symposium on Performance Analysis of Systems and Software)는 컴퓨터 시스템과 소프트웨어의 성능 분석·최적화 기법을 논의하는 학술 포럼이다. 학계 연구자와 산업 현장 전문가가 한자리에 모여 최신 성능 분석 방법론부터 워크로드 특성화, 벤치마킹까지 이론과 실무를 두루 나눈다. 이 자리에 인터커넥트·반도체 기술 기업 파네시아가 이름을 올리며 눈길을 끈다.

2026년 4월 28일, 정명수 파네시아 대표는 JW 매리어트 동대문 스퀘어 서울 호텔에서 열린 ISPASS 2026 기조연설에 나섰다. 'AI 모델에서 AI 인프라로: CXL을 활용한 데이터센터의 재설계(From AI Models to AI Infrastructure: Rethinking Datacenters with CXL)'를 주제로 발표에 나선 그는 AI 모델의 발전 개요부터 병목 발생 원인, 차세대 AI 데이터센터에 필요한 하드웨어의 중요성까지 폭넓게 다뤘다.

에이전틱 AI 시대, 메모리 관리가 중요하다

정명수 대표는 발표에 앞서 인공지능 기술이 생성형 AI(Generative AI)에서 스스로 판단하고 행동하는 에이전틱 AI(Agentic AI)로 진화하고 있음을 강조했다. 이런 변화는 필연적으로 데이터 처리량의 폭증을 불러온다. AI 모델이 이전 대화 내용과 문맥을 보관하는 'KV 캐시(Key-Value Cache)'의 용량 부담이 급격히 커지는 것이 대표적 사례다.

이어 그는 AI의 작동 원리를 짚었다. 컴퓨터는 이미지나 텍스트를 그대로 이해하지 못한다. 모든 데이터를 숫자·벡터·행렬로 변환해 수학적으로 표현 가능한 고차원 공간에 배치하는 방식을 택한다. 이 공간에서 AI가 하는 일은 데이터를 구분하는 '결정 경계(Decision Boundary)'를 찾는 것이다. 2차원으로 구분이 안 되면 3차원으로, 그래도 부족하면 다차원으로 확장한다. 학습이란 곧 이 결정 경계를 손실 함수(Loss Function)와 경사 하강법(Gradient Descent)으로 최적화하는 과정이다.

AI 모델의 데이터 처리 방식에 대해 설명하는 정명수 대표 / 출처=IT동아
AI 모델의 데이터 처리 방식에 대해 설명하는 정명수 대표 / 출처=IT동아

AI 모델의 대표격인 트랜스포머는 '쿼리-키-밸류(QKV, Query-Key-Value)' 구조로 연산을 수행한다. 문장 속 단어들이 서로 얼마나 관련이 있는지 계산하는 과정이다. 예컨대 '날씨가 좋다'는 문장에서 '좋다'가 '날씨'와 연결된다는 관계를 기계가 파악하고, 이를 수치로 환산해 다음 단어를 예측하는 식이다. 이때 여러 관점에서 동시에 관계를 분석하는 '멀티헤드 어텐션(Multi-Head Attention)'이 핵심 역할을 맡는다. 하나의 문장을 여러 전문가가 각자의 시각으로 분석한 뒤 통합하는 것과 유사한 구조다.

문제는 이 과정이 단 하나의 토큰을 생성하기 위한 연산이라는 점이다. 정명수 대표는 이 과정조차 수천 개의 레이어를 거쳐야 비로소 답 하나가 나온다고 짚었다. AI는 문제를 직접 푸는 게 아니라, 풀기 쉬운 형태로 변환한 뒤에 푼다는 설명이다.

핵심 걸림돌은 KV 캐시(Key-Value Cache)다. 생성형 AI는 단어를 하나씩 순차적으로 만들어낸다. 예컨대 세 번째 단어를 예측할 때, 앞서 계산한 첫 번째와 두 번째 단어의 QKV 연산 결과를 재활용한다. 매번 처음부터 재계산하는 대신 그 결과를 임시 저장소(캐시, Cache)에 보관해 두는 것이다. 수학 시험을 치르기 위해 구구단을 외워두는 것과 같은 원리다.

정명수 대표는 현재 AI 모델에서 KV 캐시가 GPU 메모리의 30%~75%를 점유한다고 지적했다. 문맥의 길이(Context Length)가 길어질수록 KV 캐시 크기도 선형으로 증가하기 때문이다. 수백 GB(기가바이트) 용량의 HBM 메모리를 탑재한 최상위 GPU조차 이 한계에서 자유롭지 않다는 설명이다.

LLM 추론과 KV 캐시를 함께 처리하는 AI 워크로드는 GPU당 80GB~120GB에 달하는 메모리를 요구하는 것으로 알려졌다. 이 같은 부담은 높은 지연 시간과 막대한 데이터 이동 비용으로 이어진다. GPU 연산 성능이 폭발적으로 성장하는 동안 메모리 용량과 대역폭은 그 속도를 따라가지 못했다.

정명수 대표는 AI가 대화형에서 에이전트로 전환이 가속화될수록 메모리 부담이 증가한다고 분석했다 / 출처=IT동아
정명수 대표는 AI가 대화형에서 에이전트로 전환이 가속화될수록 메모리 부담이 증가한다고 분석했다 / 출처=IT동아

생성형 AI 이후 스스로 판단하고 명령을 수행하는 에이전틱 AI 시대에는 처리해야 할 데이터 규모가 한층 커진다. 예컨대 에이전틱 AI가 이메일 정리 요청을 받으면, 이메일을 읽고 분류하고 요약하고 필요하다면 회신까지 작성하는 일련의 과정을 자율 처리한다. 이 과정에서 컨텍스트 윈도우(맥락 참조 규모)가 수백만 토큰 규모로 확대되고, KV 캐시 용량 요구량도 빠르게 불어날 수밖에 없다.

에이전틱 AI에서는 매 단계의 실행 결과가 다시 모델의 입력으로 돌아오는 구조이기 때문에 KV 캐시에 데이터가 계속 누적된다. 생성형 AI와 비교하면 메모리 요구량이 차원이 다른 수준이라는 것이 정명수 대표의 진단이다.

해법은 “메모리 중심 아키텍처”

메모리 사용량은 빠르게 늘지만, AI 데이터센터 내 시스템은 이 속도를 감당하지 못한다. KV 캐시 데이터를 시스템 메모리나 외부 저장소로 옮기려면 PCI-E(PCI-Express) 인터페이스를 거쳐야 하는데, 여러 경로를 경유하는 구조 자체가 병목과 지연을 낳는다.

이 같은 한계를 극복하고자 파네시아는 '메모리 중심 데이터센터 아키텍처'를 제시했다. CPU·GPU 같은 처리장치 중심의 구조에서 벗어나, 모든 장치가 메모리 자원을 공유하고 필요에 따라 유연하게 확장하는 방식이다. 파네시아가 제안한 메모리 중심 아키텍처의 시발점은 CXL(Compute Express Link, 고속 전송 기술) 3.2 기반 퓨전 스위치다.

데이터센터 메모리 병목을 CXL 규격 도입으로 개선 가능하다는 게 정명수 대표의 설명이다 / 출처=IT동아
데이터센터 메모리 병목을 CXL 규격 도입으로 개선 가능하다는 게 정명수 대표의 설명이다 / 출처=IT동아

CXL은 CPU, GPU, 메모리 등 시스템 자원을 하나로 연결하는 고속·저지연 인터커넥트 표준이다. 기존 이더넷(Ethernet) 기반의 원격 메모리 접근과 달리, 소프트웨어 개입 없이 메모리를 내부 장치처럼 읽고 쓸 수 있다. 장치 간 메모리 일관성을 제공한다는 점에서 주목받는 기술이다.

정명수 대표는 CXL 기반 컴퓨팅 인프라의 진화를 세 단계로 정리했다. CXL 1.1은 단순 메모리 확장에 초점을 뒀고, CXL 2.0은 스위치를 통한 풀링(Pooling·자원 통합)으로 성능을 높였다. CXL 3.0 이상은 패브릭 수준의 시스템 자원 통합을 통해 메모리를 하나의 거대한 주소 공간으로 묶는 단계다. 나아가 광학(Optics) 기반 인터커넥트 기술과 결합해 다수의 장치를 단일 메모리 공간으로 통합하는 미래도 구상 안에 담았다.

파네시아는 이 자리에서 PCI-E 6.4와 CXL 3.2 전송 규격에 대응하는 퓨전 스위치를 공개했다. 이 퓨전 스위치는 이전 세대 PCI-E·CXL 규격과의 하위 호환성을 유지하면서 포트 기반 라우팅(PBR)과 계층 기반 라우팅(HBR)을 모두 지원하는 게 차별점이다.

포트 기반 라우팅은 각 장치에 배정된 포트를 토대로 신호 경로를 결정하는 방식이다. 계층 기반 라우팅은 네트워크 내 장치가 평면적으로 연결되더라도 대규모 장비 운용에 유리한 구조다. 두 방식을 모두 지원한다는 것은 다양한 토폴로지(연결 구조)를 유연하게 구성할 수 있다는 의미다. 스위치 내부 컨트롤러의 지연 시간은 수십 나노초(10억 분의 1초) 수준으로, 반응 속도와 처리량을 동시에 끌어올린 점도 경쟁사와 구별되는 강점이다.

낮은 지연 시간을 구현한 건 버퍼 크기와 신호 처리 방식을 최적화한 설계 덕분이다. PCI-E 규격은 전송 과정이 복잡한 TLP(Transaction Layer Packet) 방식을 채택한다. 반면 CXL은 고정 크기의 데이터를 쪼개 전송하는 'FLIT(Flow Control Unit)' 구조를 따른다. 명료하고 예측 가능한 구조에 집중한 덕분에 지연 시간을 대폭 단축할 수 있었다.

정명수 대표는 “일반적으로 외부 설계에 의존하는 것과 달리, 파네시아는 물리 계층부터 데이터 링크 계층, 네트워크 계층 등 모든 지식재산권(IP)을 직접 보유했다. CXL 컨트롤러 IP부터 스위치 칩, 메모리 익스팬더(메모리 확장장치), 엔드포인트 디바이스(네트워크 데이터 교환 장비)까지 전 스택을 자체 개발한다. 그 결과 고객 맞춤형 설계를 신속하고 보안 위험 없이 구현할 역량을 갖췄다"고 강조했다.

파네시아는 다양한 AI 기업과 레퍼런스를 구축해 기술 역량을 가속화할 방침이다 / 출처=IT동아
파네시아는 다양한 AI 기업과 레퍼런스를 구축해 기술 역량을 가속화할 방침이다 / 출처=IT동아

파네시아는 PCI-E 6.4·CXL 3.2 퓨전 스위치로 다양한 시스템 자원을 풀링하고, 수요에 따라 유연하게 재배분하는 '컴포저블 아키텍처(Composable Architecture)'를 랙(서버 장비 단위) 규모에서 구현하는 것이 목표다. 자원 통합과 배분 최적화가 고도화되면, 대형언어모델(LLM)·검색증강생성(RAG)·딥러닝 추천 모델(DLRM) 등 대규모 워크로드를 처리하는 AI 데이터센터의 자본·운영 비용 절감으로도 이어질 전망이다.

한편, 파네시아는 CXL 기반 차세대 AI 데이터센터 아키텍처를 구현한 장비를 SK텔레콤과 함께 기술검증(PoC) 중이라고 공개한 바 있다. 두 기업은 2026년 4분기까지 AI 모델을 실행하며 GPU·메모리 활용률, 지연 시간, 처리량 등을 종합 평가할 계획이다.

IT동아 강형석 기자 (redbk@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.