"AI 많이 쓰면 일잘러?" 빅테크 흔드는 '토큰맥싱' 열풍
[IT동아 남시현 기자]
“50만 달러(약 7억 5000만 원) 연봉을 받는 엔지니어가 최소 25만 달러(약 3억 7500만 원) 상당의 토큰을 사용하지 않는다면 매우 우려할 것입니다”
지난 3월, 젠슨 황 엔비디아 CEO가 미국의 산업·기술 팟캐스트 ‘올인 팟캐스트’를 찾았다. 이 자리에서 진행자인 제이슨 칼라카니스는 젠슨 황에게 “엔비디아에서도 엔지니어링 팀을 위해 10억 달러(약 1조 5000억 원), 20억 달러(약 3조 원) 이상의 토큰을 쓰고 있나요?”라고 질문했고, 젠슨 황 엔비디아 CEO는 최소한 연봉의 절반은 토큰으로 소비해야 한다며 그렇지 않다면 매우 화가 날 것이라 답했다.

제이슨은 앞서 다른 에피소드에서도 엔지니어 1인당 생산성을 극대화하려면 적어도 7만 5000달러 치의 토큰은 평균적으로 써야 한다고 말했는데, 이를 들은 젠슨 황 CEO는 연봉의 절반은 쓰는 게 맞다고 답한 것이다. 젠슨 황 CEO는 AI를 쓰지 않는 개발자를 ‘반도체 칩 설계자가 설계 도구는 필요 없고 종이랑 연필만 쓰겠다고 하는 것과 같다’라고 지칭했다. 그렇다 보니 메타, 아마존 등 빅테크 기업들도 개발자들이 사용하는 토큰 수를 집계하고 사내 순위를 매기는 등 경쟁구도를 만들고 있다.
LLM 기본 단위 ‘토큰’, 개발자들의 업무 잣대로 쓰이기 시작

토큰(Token)은 인공지능 모델이 문장을 읽고 쓸 때 텍스트를 쪼개서 인식하는 최소한의 기본 단위다. 우리가 언어에서 알파벳을 최소 단위로 보는 것처럼 AI는 토큰을 최소 단위로 본다. 오픈AI나 클로드 등 대형언어모델(LLM) 서비스 기업들은 요금을 책정할 때 토큰을 얼마나 생성했는지를 기준으로 비용을 청구하며, 개발자가 토큰을 많이 생성했다는 것은 그만큼 LLM을 활용한 작업을 많이 했다는 것을 의미한다. 젠슨 황 엔비디아 CEO가 연봉의 절반 정도에 해당하는 토큰을 활용하라고 한 점은 이제 인재의 몸값을 프로젝트 결과물 같은 추상적인 지표뿐만 아니라 여기에 투입한 AI 활용량까지 정량적으로 따지겠다는 것을 의미한다.

AI 도입 초기에는 개발자들이 수만 달러씩 토큰을 쓰기보다는 자제하라는 분위기였다. 명확한 결과물 없이 수억 원 이상을 인프라에 투입하는 것 자체가 굉장한 지출이었기 때문이다. 하지만 AI 에이전트를 활용해 개발자 한 사람이 수십 명 분의 업무를 자동화하고 문제를 해결하는 결과들이 등장하기 시작했고, 개발자의 AI 작업 총량을 토큰 수로 정량화할 수 있게 됐다. 2025년 이후부터는 엔지니어들이 더 많은 토큰을 소비하도록 장려하는 분위기가 자리 잡았다. 업계에서는 가능한 토큰을 많이 쓰는 현상을 ‘토큰맥싱(Tokenmaxxing)’이라 부른다.

빅테크 기업은 사내 AI 모델, 앤트로픽의 클로드 API 사용량이 늘어나며 엔지니어들이 얼마나 더 많은 토큰을 생성했는지를 지표로 만들어서 비교하고 있다. 메타의 경우 내부 인트라넷을 통해 직원들의 AI 토큰 사용량을 집계하는 ‘클로드노믹스(Claudeonomics)’라는 이름의 대시보드를 운영했었고, 1달 간 2810억 개의 토큰을 사용한 개발자가 1위를 차지했다.
미국의 기업지출 관리 기업 램프가 올해 봄 발표한 기업 지출 보고서에 따르면 미국 기업의 50.4%가 AI 서비스에 비용을 지출하는 것으로 확인된다. 또한 AI 토큰 지출은 2025년 이후 지금까지 13배가 증가했고, AI에 막대한 투자를 한 기업은 그렇지 않은 기업보다 매출이 두 배 가량 늘어난 것으로 집계됐다. 해당 결과는 램프 플랫폼을 활용하는 기업을 대상으로 조사한 결과지만 미국 기업 전반에 나타나는 효과로 봐도 무방하다.
토큰이 업무 평가에 활용되자 토큰 부풀리기 현상도 심화
다만 토큰을 업무 평가의 기준으로 내세우다 보니 역효과도 생겨난다. 토큰 수가 업무량이 아님에도 불구하고 인사고과 등을 고려해 의도적으로 토큰을 더 많이 소비하도록 작업하는 것이다. 미국 파이낸셜 타임스는 아마존 직원들이 AI 활동을 늘리기 위해 사내 업무 도구인 매시클로를 활용해 의도적으로 토큰을 더 많이 필요로 하거나 불필요한 AI 에이전트를 생성하고 있다고 보도했다.
메시클로는 AI 에이전트 생성 도구인 오픈클로와 비슷한 아마존 사내 서비스다. 파이낸셜타임스는 개발자의 80%가 매주 AI를 사용하도록 목표가 설정되며, 토큰 사용량이 내부 순위표에서 추적된다고 말했다. 아마존 측은 직원들 간의 토큰 사용량을 추적하는 회사 차원의 지표는 없으며 메시클로는 아마존 직원들이 AI를 실험하고 지원하는 방식의 한 예시일 뿐이라는 성명을 냈다.

직원들이 비효율적으로 더 많이 토큰을 활용하는 이유는 실제로 다른 빅테크에서는 토큰을 인사고과로 활용하기 때문에다. 메타, 쇼피파이의 관리자들은 직원들의 토큰 사용량을 성과 평가에 반영 중이며, 오픈AI와 앤트로픽은 직원들이 매주 수십억 개의 토큰을 쓰고 있다. 구글은 현재 비기술직 직원들에게도 AI 활용을 지시한다. 토큰 사용량으로 직원들끼리 경쟁하고, 의도적으로 불필요한 AI 연산이 생겨나는 것이다.
비효율적 방법으로는 간단한 질문이나 수정을 요청할 때도 불필요하게 긴 문맥을 제공하거나, AI에게 같은 내용을 여러 번 다르게 다시 쓰라고 반복 요청하는 것이다. 또 하나의 간단한 작업을 수행하는 것도 여러 개의 AI 에이전트를 동시에 실행하거나 복잡한 작업을 쪼개어 작업한다. 굳이 필요 없는 보고서나 주석 등을 추가로 끼워 넣으라는 주문도 가능하다.
오늘날 토큰 부풀리기, 개발 역사 내내 반복된 문제
전문가들 사이에서는 불필요한 토큰 활용으로 회사의 인프라 비용은 늘어나고, 유지보수의 어려움과 작업 효율이 감소할 것이라는 지적이 나오고 있다. 흥미롭게도 이런 현상은 코딩이 본격적으로 확산하기 시작한 80~90년 대부터 제기된 문제다. 당시 IBM을 비롯한 대기업들은 개발자의 생산성을 정량적으로 측정하기 어려워 ‘코드를 많이 짠 개발자가 일을 열심히 한 것’으로 보고 코드의 라인 수(Lines of Code, LOC)를 프로젝트 규모나 인사고과로 사용했다.
그러자 개발자들은 깔끔하게 한 줄로 짤 수 있는 코드도 10줄 이상으로 늘리고, 의미 없는 주석을 달거나 루프 문장을 길게 풀어쓰는 편법을 사용했다. 결국 프로그램의 용량은 커지고 버그가 기하급수적으로 늘어나는 등의 문제가 발생했다. 빌 게이츠 전 마이크로소프트 회장은 “프로그래밍 진행 상황을 코드 줄 수로 측정하는 것은 항공기 제작 과정을 무게로 측정하는 것과 같다”라며 당시 상황을 비판한 적도 있다.

2000년대 초반에 오픈소스 코딩 플랫폼 깃허브가 등장했을 당시에도 관리자가 얼마나 빠르게 코드를 업데이트했는지를 ‘커밋’이라는 단위로 계산했다. 커밋 숫자가 많을수록 부지런하고 자주 코드를 수정하는 개발자임을 보여주려 한 것이다. 그러자 띄어쓰기나 오탈자 하나 고치고 커밋 숫자를 올리는 개발자들이 늘었고, 아예 자동으로 커밋 숫자를 늘리는 프로그래밍까지 등장했다.
2010년 이후부터 넷플릭스, 아마존이 시스템을 쪼개어 관리하는 마이크로서비스 아키텍처로 사업의 효율화를 이뤄내며 많은 기업들이 서비스를 분리하는 마이크로서비스를 시작했다. 하지만 일부 개발자들이 보여주기 식으로 서비스를 너무 많이 나눠버리면서 서비스 간 통신 비용이 폭증하고 실행 성능은 저하되는 문제를 야기한다. 최근에는 지나치게 복잡하게 나뉜 마이크로서비스를 다시 합치는 모놀리식 아키텍처가 다시 대두되고 있다.
가장 성장하지만 가장 관리되지 못하는 AI 지출
램프의 기업지출 보고서에 따르면 AI는 기업 내에서 가장 빠르게 성장하는 카테고리지만 역으로 가장 관리되지 않는 지출로도 손꼽였다. 프로젝트를 진행하더라도 상세한 지출이 얼마나 발생할지 예측이 어렵고, 개개인 별로 얼마나 활용하고 사용하는지도 확인이 쉽지 않다. 단순히 토큰이 얼마나 쓰였는지 정도만 확인할 수 있는 상황이다. 결국 토큰맥싱은 눈에 보이지 않는 AI 활용 능력과 결과물을 어떻게든 정량화하려는 관리자들의 조급함과 인사고과를 잘 받으려는 개발자들의 생존본능이 결합된 산물이다.
경영학에서는 토큰맥싱과 같은 현상을 굿하트의 법칙으로 설명한다. ‘어떤 측정 지표가 목표가 되는 순간, 그 지표는 더 이상 좋은 지표로서의 기능을 상실한다’는 의미다. 토큰을 단순히 AI 사용량으로만 볼 때는 좋은 지표지만 이것을 업무 단위로 보는 순간 효력을 잃은 것이다. 당초 서비스나 코딩을 잘하겠다는 목적이 사라지고 인사 평가를 잘 받겠다는 것으로 취지가 왜곡된 것이다.

이미 소프트웨어 기업들은 토큰맥싱을 해결하기 위한 새로운 방안들을 내놓고 있다. 과거와 달리 AI를 활용해 결과물을 검증하고 어떤 결과물을 냈는지까지 확인하는 것이다. 세일즈포스는 에이전트 작업 단위(AWU)라는 새로운 측정 표준을 제시해 토큰 수가 아니라 얼마나 많은 업무를 AI로 해결했는지를 직접적으로 평가한다. 허브스팟은 토큰 수가 아닌 코드 병합, 장애 해결 시간 등 기존 소프트웨어 공학 지표를 바탕으로 AI 작업 역량을 평가한다. 토큰 수가 아닌 결과물 중심으로 평가하는 기준을 채택하는 기업은 계속해서 늘어날 전망이다.
IT동아 남시현 기자 (sh@itdonga.com)

