GPT 3o-미니에 심층 연구까지 추가··· 단독 질주 나선 오픈AI
[IT동아 남시현 기자]
“딥시크 R1은 가격대 성능비가 매우 뛰어난 모델이다. 오픈AI는 더 나은 모델을 제공할 것이고, 새로운 경쟁자가 생겼다는 것은 고무적인 일이다. 우리는 몇 가지 소식을 준비하겠다”
일주일 전만 해도 샘 알트만 오픈AI 최고경영자는 中 딥시크의 출현으로 시장의 파이가 커질 것이라며 화색을 표했지만, 채 이틀을 가지 못했다. 현재 오픈AI와 MS는 중국 딥시크가 초기 데이터 생성에 자사 데이터를 끌어다 딥시크의 기반을 만들었다는 정황 증거를 찾았다며 지식재산권 보호를 위한 조치에 나섰고, 미국 정부까지 조사에 들어간 상황이다.
특히나 딥시크가 오픈AI의 30분의 1에 불과한 가격 정책과 자사 데이터를 외부에 누구나 쓸 수 있도록 배포하는 오픈소스 전략을 펼치면서 업계 선두를 달리던 오픈AI 역시 AI 전략에 대대적인 수정을 가하고 있다. 오픈 AI는 지난 1월 31일 GPT의 새로운 버전인 오픈AI o3-미니를 공개했고, 이틀 만에 o3 기반의 심층 연구(Deep Research) 기능을 연이어 공개했다. 기반 정보를 대중에 무료로 공개하는 오픈소스로의 전환도 고려 중이다.
소규모 추론 모델로 전작 대형 모델 근접, 비용 ↓ 효율 ↑
오픈AI o3-미니는 지난해 12월 공개한 오픈AI o3의 간소화 버전이다. o3는 미국수학경시대회인 AIME 2024에서 96.7%의 정확도를 기록했고, 박사, 대학원 수준의 과학 문제가 포함된 GPQA 다이아몬드 테스트에서 87.7%의 해결 능력을 보여줬다. o3-미니는 함수 호출을 포함해 개발자들이 많이 쓰는 기능을 지원하는 소규모 추론 모델로, 사용자가 속도와 정확도의 균형을 선택해서 쓸 수 있다.
성능 면에서는 AIME 2024 및 GPQA 다이아몬드 테스트의 성과에서 오픈AI o1과 같은 성능을 제공하며, 주요 오류는 39% 감소했다. o1-미니와 비교해 응답 속도는 24% 더 빨라진 7.7초다. 오픈AI는 o3-미니를 통해 GPT-4 출시 이후 토큰당 가격을 최대 95%까지 낮춤과 동시에 성능은 최대한 그대로 제공하는 게 목표다. 챗GPT 플러스, 팀 및 프로 사용자는 이미 o3-미니 모델을 쓸 수 있고, 엔터프라이즈 사용자는 이 달부터 제공된다. 무료 이용자는 메시지 작성에서 ‘Reason’을 선택해 o3-미니 모델을 써볼 수 있다.
오픈AI o3 기반 고난도 작업 수행하는 ‘심층 연구’
오픈AI는 지난해 9월 o1을 선보였는데, o3는 3개월 뒤인 12월에 공개했다. 그러면서도 간소화 버전인 o3-미니가 전 세대 o1 모델에 근접하는 성능과 효율을 보여준 것에 대해 업계의 반응은 뜨겁다. 대형언어모델(LLM)의 개발 속도는 물론 작업 효율과 소형화도 빠르게 이뤄지는 추세다. 하지만 업계의 시선은 o3-미니 출시 이틀 뒤인 2월 2일 공개된 ‘심층 연구’에 쏠리고 있다.
심층 연구는 o3 모델을 기반으로 금융, 과학, 정책, 엔지니어링 등의 분야의 질문을 최대 성능으로 작업한다. 단순 질문이 몇 초 이내로 처리되는 것과 달리 심층 연구 기능은 5분에서 최대 30분까지 소요된다. 현재는 텍스트 형태로 제공되나 몇 주 내에 임베디드 이미지와 데이터 시각화 및 기타 분석 출력까지 추가로 제공할 예정이다.
작동 원리는 데이터를 찾기 위해 온라인 상에서 다단계의 처리 경로를 만들어 실행하고, 필요한 경우 실시간 정보를 역추적하고 반응하는 방식까지 동원한다. 사용자가 업로드한 파일을 찾고, 그래프를 그리고 반복하며, 다양한 자료에서 특정 문장이나 구절까지 가져와 인용한다. 성능 면에서는 ‘인류 최후의 시험(HLE)’를 역대 최고 수준으로 달성할 정도다.
HLE는 50여 개 국가 500개 이상의 기관에서 1000여 명의 전문가가 만든 데이터 세트다. 질문은 100개 이상의 주제에 걸쳐 3000여 개의 난제로 이뤄져 있으며, 대형언어모델의 성능과 정확도를 측정하는 데 사용된다. 해당 시험에서 GPT-4o의 정확도는 3.3%, 클로드 3.5 소네트는 4.3%를 기록한 바 있고, 전 세대인 오픈AI o1은 9.1%, 딥시크-R1은 9.4%를 기록했다. 이번에 새로 출시된 오픈AI o3-미니 중간 성능은 10.5%, 높음 성능은 13.%를 기록했는데, 심층 연구는 26.6%를 기록하며 역대 최고 기록을 세웠다.
오픈AI는 과학 분야에서 보고서 및 검색 작성 시간을 절약할 수 있는 결과를 첨부했다. 완성된 결과의 경제적 가치는 경제적 가치가 낮고, 시간이 짧을수록 논문 수준의 과제 통과율이 20% 초반으로 높았으며, 반대로 10시간 이상이 소요되고 가치가 높은 작업은 15% 내외의 통과율을 보였다.
이는 모델이 어렵다고 생각하는 일과 사람이 시간이 많이 걸린다고 생각하는 일이 다르기 때문이다. 예를 들어 수많은 데이터 세트나 코딩 작업이라면 사람이 작업할 때는 시간이 많이 걸리지만, AI는 빠르게 처리한다. 반면 윤리적, 인문학적 고찰이 포함되어야 하거나, 독창적인 사고 구조를 바탕으로 작성되는 자료라면 오히려 AI의 효율과 완성도는 떨어진다. 즉 정형 데이터를 처리하는데 최적의 효율을 기대할 수 있다.
심층연구는 현재 온라인에 업로드된 모든 파일에 접근할 수 있고, 더 전문화된 데이터가 추가될 예정이다. 제공 대상은 월 200달러(약 29만 원대) 상당의 GPT 프로 모델을 구독한 이용자에게 한 달에 100개의 심층 연구 이용권이 제공된다. 오픈AI는 심층 연구를 추후 플러스, 팀 및 엔터프라이즈 사용자로 확장하고, 모바일과 데스크톱 앱으로도 제공할 예정이다.
코파일럿으로 GPT o1 무료 제공 나선 마이크로소프트
오픈AI가 o3-미니 모델을 제한적으로나마 무료 제공하는 것은 딥시크의 영향이 없지않다. 오픈AI는 당장 12월까지만 해도 캘리포니아주, 델라웨어주와 협의해 영리법인으로 전환하고, 대규모 자본 유치를 가능함과 동시에 수익 상한제도 없앨 계획이었다. 아울러 AI의 핵심 자산인 소스코드도 폐쇄형으로 구축하고, 프로그램 사용료 등을 받아 AI 시장을 장악하겠다는 계획을 세웠다.
하지만 1월들어 딥시크가 오픈AI o1 성능에 이용 가격은 30분의 1인 딥시크-R1을 오픈소스로 공개하며 누구나 무료로 고성능 AI를 써볼 수 있도록 판을 뒤집었고, 이에 오픈AI 역시 기존 전략을 대거 수정하고 무료 서비스로 시장 장악력을 확보하는 쪽으로 선회했다. 이번에 오픈AI o3-미니가 제한적으로 무료 제공되는 것도 딥시크-R1의 입김이 미쳤고, 마이크로소프트 역시 코파일럿에 ‘Think Deeper’ 기능을 통해 GPT o1 모델을 누구나 무료로 쓸 수 있게 됐다. o1 모델은 지난해 말까지만 해도 월 200달러에 구독해야 무제한으로 쓸 수 있었다.
2023년 LLM 시장 점유율은 폐쇄형이 80%를 초과했다. 하지만 메타의 주도로 오픈소스 LLM이 명맥을 잃지 않았으며, 딥시크를 비롯한 추가적인 오픈소스 LLM의 등장과 마이크로소프트 코파일럿 등 무료 생성형 AI의 등장을 통해 AI 기술이 누구에게나 보편적으로 적용됨을 뜻한 ‘AI 민주화’도 진척을 보이고 있다. 2025년은 LLM의 상업화가 이뤄지는 가운데, 오픈소스 LLM을 위시한 전반적인 시장 평준화도 함께 달성할 것으로 보인다.
IT동아 남시현 기자 (sh@itdonga.com)