LLM 넘어 기술 패권 기업으로 성장한 '딥시크', 쇼크 이후 1년 톺아보니
[IT동아 남시현 기자] 2022년 말 GPT 3 등장 이후 AI 산업은 하이퍼스케일러들의 막대한 자본 투입을 통한 인프라 확보, 정확히는 엔비디아의 그래픽 카드(GPU)를 확보하기 위한 경쟁이었다. 2026년 현재도 AI 학습에 필요한 GPU를 수급하기 위해 거의 모든 기업들이 혈안이 되어있고, 마이크로소프트, AWS, 구글 등 규모의 경제가 가능한 기업들은 자체 설계 반도체로 경쟁하고 있다. 이런 상황 속에 인프라 확충을 통한 스케일업보다 기존의 효율 확보나 대체제를 통해 대안을 모색하는 기업이 있었으니, 바로 딥시크다.

딥시크는 2023년 11월부터 딥시크-코더를 시작으로 AI 모델을 출시해왔고 가장 잘 알려진 계기는 주력 모델의 세 번째 버전인 딥시크-V3 부터다. 당시까지만 해도 오픈AI, 구글, 메타 등 전 세계 AI 기업들은 수천 억 원 이상을 투입해 AI를 개발해 왔지만, 딥시크는 80억 원으로 딥시크-V3를 개발했다고 주장해 전 세계의 이목을 집중시켰다.
물론 80억 원이라는 숫자는 GPU를 구동한 순수 전기세 및 인프라 비용이 와전된 것이지만, 실제로 FP8 가속 학습으로 연산 효율을 2배 끌어올리고, 멀티헤드 잠재 어텐션(MLA, Multi-Head Latent Attention)으로 메모리 사용량을 획기적으로 끌어올리는 구조를 적용해 대단해 효율적으로 대형언어모델(LLM)을 개발한 것은 사실이다.
그리고 지난해 딥시크가 공개한 엔그램(N-Gram) 처리 기술은 LLM 업계의 근본적인 개발 구조를 바꾸고, 데이터서버 인프라 시장을 넘어 일상 전반에까지 엄청난 영향을 미치고 있다. 딥시크가 공개한 엔그램 기술, 그리고 실물 경제 전반에 미치고 있는 사건들을 조명해 본다.
효율성과 가격대 성능비로 한계 극복하는 딥시크
지난해 딥시크 쇼크 이후 딥시크는 중국 정부의 ‘AI 굴기’를 상징하는 기업으로 중국 정부의 전적인 지원을 받고 있다. 중국 정부는 총 600억 위안(약 12조 5000억 원) 규모의 국가 AI 산업 투자 펀드를 설립해 딥시크를 비롯한 AI 스타트업을 지원 중이며, 슈퍼컴퓨팅 인프라 구축에도 중국 정부의 보이지 않는 손이 작용한다. 하지만 딥시크의 저력은 투자 유치나 양적 지원보다도 밑천이 부족한 상황에서도 기술력을 앞세워 국가급 AI를 만들어냈다는 점이다.

딥시크는 2023년부터 LLM을 구축하며 부족한 AI 인프라로 성능 문제, 학습 역량 등을 개선하기 위해 다양한 시도들을 해왔으며 이 과정에서 멀티헤드 잠재 어텐션(MLA), 딥시크MoE(전문가 혼합 아키텍처, Mixture of Experts), 그룹상대정책 최적화(GRPO, Group Relative Policy Optimization), FP8 정밀도 훈련 및 다중 토큰 예측(MTP, Multi-Token Prediction), 엔그램 등의 기술이 구현됐다.
MLA는 LLM들의 고질적인 문제였던 KV 캐시 메모리 점유 문제를 해결한 기술이다. LLM은 문맥이 길어질수록 저장 공간이 기하급수적으로 늘어나 메모리를 채우고 병목이 생긴다. MLA는 데이터를 잠재 벡터 형태로 압축해 저장하고, 필요할 때 이를 키값으로 복원해서 사용해 최대 90%의 메모리를 절감한다. 딥시크MoE는 프롬프트를 입력했을 때 사용자가 입력한 지식 영역에 해당하는 부분만 활성화해 부담을 줄이는 기술이다.

GRPO는 강화학습 관련 기술이다. 기존의 강화학습은 결과가 나오면 비판 모델이 이를 분석하고 점수를 매기는 방식으로 학습하는데, GRPO는 여러 개의 결과를 산출한 뒤 결과끼리 비교해 평균보다 나은 답을 학습한다. 비판모델을 운용하지 않아 자원을 획기적으로 아끼고 스스로 생각하는 능력은 더욱 강화한다. FP8 정밀도 훈련 및 MTP는 모델을 구축할 때 16비트, 32비트 정밀도 대신 메모리 사용량이 더 적은 8비트로 만들어 효율을 올린다. 또한 대답을 예측할 때 여러 개를 한번에 예측해 추론 속도를 끌어올린다.
딥시크는 한정된 연산 자원을 가능한 효율적으로 운용하기 위해 메모리 효율, 연산 효율, 논리 추론, 학습 속도 부문에서 자산을 절감하는 기술들을 개발해 적용했고, 그 덕분에 딥시크 V3처럼 적은 자원으로 GPT, 제미나이와 비슷한 수준의 모델을 만들 수 있었다. 게다가 이 기술을 모두 개발자 커뮤니티에 코드 및 가중치, 모델 구조를 공개하거나, 논문 공개 및 라이브러리 지원으로 쓸 수 있게 하고 있다.
딥시크 엔그램, 패러다임 전환에 도전하는 새로운 시도
기존에 출시된 기술들이 LLM 개발 효율과 구조 개선에 초점을 맞췄다면, 이번에 등장한 엔그램 논문은 엔비디아 GPU에 의존하는 기존 AI 구축 방식 자체를 흔들어놓는 기술이다. 딥시크는 지난 14일 아카이브(arXiv)에 ‘확장 가능한 조회를 통한 조건부 메모리: 대규모 언어 모델을 위한 새로운 희소성 축(Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models)’이라는 이름의 논문을 공개했다. 기존의 LLM은 간단한 내용도 찾기 위해 연산을 돌려야 했고, MoE 기술이 공개되며 그 범위가 줄었지만 여전히 단순한 내용도 단순 연산으로 처리한다.

해당 논문은 자주 사용되는 패턴이나 지식을 엔그램(단어 뭉치) 형태의 메모리에 저장해 둔 뒤 질문의 조건과 맥락이 맞을 때 이를 출력한다. 기존 모델은 8X7을 물어볼 때 행렬 곱셈을 수행한 뒤 56이라는 답을 내놓는다. 반면 엔그램 방식은 8X7 질문 자체를 사전에 저장된 값으로 보고 56이라는 답을 내놓는다. 덕분에 GPU로 데이터 연산을 처리하지 않고 D램을 통해 메모리 테이블을 확장해서 지식의 양을 확장할 수 있다.
이 방식을 도입하면 검색에 들어가는 연산은 줄어들어 GPU에 대한 의존도는 줄어들고, 반대로 메모리 테이블은 확장하기 위해 더 많은 시스템 메모리와 저장장치가 필요해진다. D램의 용량과 속도가 AI 모델의 전체 성능과 지식 제공 속도 등에 직접적인 영향을 미치는 구조가 된다. 엔그램 자체는 2024년 말에 딥시크 V3 출시 당시 기술 보고서를 통해 공개됐지만 실제로 D램이 성능 향상이 영향을 준다는 게 검증되자 본격적으로 D램 수요가 폭발적으로 증가하며 가격이 올랐다.
이미 메타도 확장 가능한 메모리 계측 기술(Scalable Memory Layers), 구글의 미분 가능한 검색 인덱스로서의 트랜스포머 메모리(Differentiable Search Index & Memory-Augmented LLMs), 알리바바의 큐웬, 미스트랄 AI 등이 비슷한 엔그램 관련 독자 기술을 개발하며 D램 수요는 갈수록 증가할 전망이다.

한편 딥시크가 2024년 말 공개한 파이어-플라이 파일 시스템(3FS)도 엔그램 기술과 결합한다. 현대의 컴퓨터 시스템의 저장장치는 순차 읽기에 최적화돼 있으나 AI는 무작위로 데이터에 접근한다. 딥시크는 파일을 임시 저장하는 캐시 기능을 빼고 수천 개의 SSD를 하나의 시스템으로 병렬 연결한다. 이를 통해 180개의 스토리지 노드 기준으로 6.6테라바이트의 읽기 속도를 발휘해 AI 성능 및 검색 효율을 극도로 높인다. 엔그램은 D램, 3FS는 SSD 수요를 크게 끌어올려 시중의 제품 가격이 오르는 것이다.
딥시크, 규모 확장에서 효율 중심으로 전 세계 AI 체질 개선

딥시크의 AI 모델이 높은 효율성은 가격 전략에서도 드러난다. GPT-5.2의 100만 토큰당 API 가격은 입력이 1.75달러(2534원), 출력은 14달러(2만 273원)다. 제미나이 3 프로는 입력 2달러(2896원), 출력 12달러(1만 7377원)로 책정됐다. 딥시크 V3.2의 경우 입력이 0.28달러(405원), 출력은 0.42달러(608원)에 불과하다. 글로벌 AI 기업들은 높은 인프라 비용을 감당하기 위해 10달러 이내의 가격을 책정하는 가운데 딥시크는 10배나 저렴한 가격으로 승부수를 띄우는 상황이다. 1년 새 등장한 새로운 기술 등을 적용하면 차세대 버전의 경제성, 시장 경쟁력이 더 높아질 수 있는 상황이다.
AI 개발 효율이 좋아지며 인프라 수요가 줄어들 거란 관측도 있었지만, 지금은 제본스의 역설이 발생할 상황이다. 제본스의 역설은 특정 자원의 이용 효율이 높아지면 오히려 그 자원의 전체 소비량은 늘어난다는 이론이다. 19세기 당시 석탄 사용의 효율이 높아지자 역으로 석탄 소비가 증가한 현상에서 비롯된다. 현대에는 효율성 향상으로 상대적 자원 비용이 낮아지면 수요량이 증가하고, 경제 성장이 가속화되며 자원 수요가 더 늘어난다. 딥시크의 AI 효율화는 장기적으로 AI 수요 확대에 분명한 영향을 줄 전망이다.

이미 모델 개발사들은 LLM의 크기를 늘리는 것과 함께 MoE, MLA 등을 통해 모델의 동작 효율을 끌어올려 성능을 높이는 것도 병행하고 있다. 모델 작동 효율을 높여 추론 비용을 획기적으로 낮추지 않는다면 장기적인 생존은 어렵다. 반도체, 저장장치 업계는 소비자 가전에서 AI 서버 중심으로 체질을 개선 중이다. 샌디스크의 주가는 11개월 만에 1000%이상 올랐고 마이크론은 소비자용 제품 생산 중단을 선언하고 기업용 제품만 만들기로 했다. 엔비디아가 최근 추론용 반도체 기업인 그록(Groq)을 인수한 것도 분산 처리 아키텍처에 최적화된 효율까지 고려해야 하는 상황이 되었기 때문이다.
딥시크 쇼크 이후 1년이 지나면서 기술적으로 많은 것들이 증명되었으며, 시장 전반의 체질과 구조적 개선으로 이어졌다. AI 기업은 규모보다 효율에 집중하기 시작했고, 반도체 기업들은 소비자 시장을 버리면서까지 기업용 시장에 전념하기 시작했다. 특히나 딥시크는 거의 모든 기술을 오픈소스로 공개하고 있어서 그 파급력과 확산세가 더욱 거세다. 반도체 가격이 가파르게 오르며 실생활까지 영향을 미치고 있으나 이로 인한 효율성 개선이 장기적으로는 더 많은 시장 기회와 혁신을 제공할 전망이다.
딥시크는 차세대 모델인 딥시크-V4를 오는 2월 중순쯤 공개할 예정이다. 춘절 기간인 2월 17일 전후로 공개될 것으로 예상된다. 앞서 딥시크-V3가 출시되고 1년도 되지않아 AI 업계 전반의 성향이 완전히 바뀌었는데, 오는 딥시크-V4는 또 어떤 결과를 초래할지 AI 업계 전반에 전운이 감돌고 있다.
IT동아 남시현 기자 (sh@itdonga.com)

