오픈AI o3 모델, 세계 최상위 성능 인증··· 2025년도 AI 경쟁 격할 듯

남시현 sh@itdonga.com

[IT동아 남시현 기자] 오픈AI가 지난 20일(현지 시각), ‘오픈AI의 12일’ 행사를 통해 오픈AI의 새로운 추론 모델인 o3를 공개했다. 오픈AI는 앞서 9월 12일에 챗GPT 플러스 사용자를 위해 o1 프리뷰 및 o1 미니를 사전 공개했고, 12월 5일에 전체 버전을 출시했다. 이번에 공개한 o3는 이 모델의 새로운 버전으로 내년 1월 10일까지 안전 및 보안 연구자들에게 사전 제공되고, 1월 중 o3-미니를 대중에게 출시한다. o2라는 이름을 건너뛴 이유는 영국의 이동통신사와 이름이 겹쳐 상표권 분쟁을 피하기 위함이다.


좌측부터 홍유 렌 오픈AI 연구원, 마크 첸 오픈AI 수석 연구원, 샘 알트만 최고경영자 / 출처=오픈AI
좌측부터 홍유 렌 오픈AI 연구원, 마크 첸 오픈AI 수석 연구원, 샘 알트만 최고경영자 / 출처=오픈AI

GPT o3 발표에는 샘 알트만 최고경영자, 마크 첸(Mark Chen) 오픈AI 수석 연구원, 홍유 렌(Hongyu Ren) 오픈AI 연구원, 그렉 캄라트(Greg Kamradt) ARC 프라이즈 파운데이션 회장이 참석했다. 오픈AI는 o3가 2019년 ARC 프라이즈 파운데이션이 만든 시각적 추론 벤치마크인 ‘ARC-AGI’에서 높은 컴퓨팅 테스트에서 87.5%, 낮은 컴퓨팅 시나리오에서 75.7%를 기록했다고 밝혔다. 해당 결과는 인간이 진행하는 테스트 결과인 85%를 넘어 인간의 영역에 근접했음을 뜻한다.


AIME 2024는 단 한 문제만 틀렸고, 박사 급 문제가 나오는 GPQA 다이아몬드도 87.7% 정확도를 달성했다 / 출처=오픈AI
AIME 2024는 단 한 문제만 틀렸고, 박사 급 문제가 나오는 GPQA 다이아몬드도 87.7% 정확도를 달성했다 / 출처=오픈AI

마크 첸 수석 연구원은 o3가 미국수학경시대회인 AIME 2024 수행에서 96.%의 정확도를 기록했다고 밝혔다. o1 프리뷰 모델은 동일 테스트에서 56.7%, 정식 모델은 83.3%를 획득한 것과 비교하면 월등한 발전이다. 박사, 대학원 수준의 생물학, 물리학, 화학 문제가 포함된 GPQA 다이아몬드 테스트는 전작이 78%를 달성했는데, 이번에는 87.7%를 달성했다고 밝혔다.


프런티어 매스 테스트에서 일반 모델들이 2%를 넘기 힘든 것에 반해, o3가 25.2%를 달성했다 / 출처=오픈AI
프런티어 매스 테스트에서 일반 모델들이 2%를 넘기 힘든 것에 반해, o3가 25.2%를 달성했다 / 출처=오픈AI

에포크AI가 만든 프런티어 매스(Frontier Math) 벤치마크의 경우 GPT-4, 재미나이를 포함한 AI들이 2%를 달성할 때 25.2%를 푸는 모습을 보여줬다. 프런티어 매스는 60여 명의 수학자가 대수기하학부터 체르멜로-프렌켈 집합론 등 현대 수학의 전 영역을 포괄하여 만든 AI용 테스트다.

2006년 필즈상 수상자인 테렌스 타오는 해당 테스트에 대해 “대단히 도전적인 문제며, AI가 해결하려면 적어도 몇 년은 걸릴 것”이라고 평가했고, 98년에 필즈상을 수상한 티모시 고워스도 “한 가지를 맞추는 것도 우리가 할 수 있는 수준을 넘어서는데, 모든 질문을 다 답하는 건 불가능하다”고 답한 테스트다.


전 세계 프로그래머들이 경쟁하는 코드포스에서는 상위 0.05% 수준인 2727점을 달성했다 / 출처=오픈AI
전 세계 프로그래머들이 경쟁하는 코드포스에서는 상위 0.05% 수준인 2727점을 달성했다 / 출처=오픈AI

경쟁적 프로그래밍 대회인 코드포스는 전작인 o1이 1891점을 달성한 반면, o3가 2727점을 달성하며 9만 9832명 중 50위 이내, 상위 0.05% 코딩 전문가의 실력을 보여줬다. 해당 점수에서 2500점 이상을 획득하는 사용자는 국가 대표급의 코딩 실력자로 분류되며, 2700점을 넘겼다는 의미는 세계 최고 수준의 코딩 능력자와 비슷한 수준임을 의미한다.

그렉 캄라트 회장은 “해당 결과를 통해 AI에 대한 내 세계관을 바꿔야 한다고 느꼈다. AI가 실제로 무엇을 할 수 있고, 특히 o3가 인류에게 어떤 것들을 제공할 수 있을지에 대한 직관을 새로 가져야 한다”라면서, “아직까지 AI가 초기인 만큼, ARC-AGI같은 더 지속 가능한 벤치마크가 필요하고, 오픈AI와 AI를 함께 진보시킬 수 있다는 점에서 기쁘다”라고 말했다.


ARC-AGI 테스트의 점수당 비용 결과, o3 낮은 컴퓨팅 시나리오와 o3 높은 컴퓨팅 시나리오 모두 높은 점수 달성을 위해 예상보다 많은 연산 및 컴퓨팅 자원을 소모해야 했음을 시사한다 / 출처=ARC-AGI
ARC-AGI 테스트의 점수당 비용 결과, o3 낮은 컴퓨팅 시나리오와 o3 높은 컴퓨팅 시나리오 모두 높은 점수 달성을 위해 예상보다 많은 연산 및 컴퓨팅 자원을 소모해야 했음을 시사한다 / 출처=ARC-AGI

ARC-AGI에서 인간보다 높은 점수를 획득한 점을 놓고 일각에서는 인공 일반지능의 등장이라는 목소리가 나왔지만 그렇진 않다. ARC 프라이즈의 공동 창립자인 마이크 누프(Mike Knoop)는 SNS를 통해 o3가 고성능 컴퓨팅 구성에서도 100여 개의 시각적 퍼즐 과제를 풀지 못했고, 낮은 시나리오 컴퓨팅 역시 경연대회 목표보다 100배에서 1000배의 컴퓨팅 파워를 사용했다고 밝혔다.

오픈AI o3 공개는 인공지능의 발전 속도가 예상보다 훨씬 빠르다는 점, 그리고 상한선 달성을 위한 컴퓨팅 자산이 예상보다 많이 소요된다는 점이다. 또한 문제 및 해결 방법이 공개된 사안에 대해서는 인간 기준으로도 대단히 높은 결과물을 제공할 수 있음을 보여줬다. 오픈AI는 인간 전문가의 AI 역량 평가 및 계획적 추론 평가 등을 거쳐 1월 중 o3 모델을 공개할 예정이다.

IT동아 남시현 기자 (sh@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.