"올해 AI 승자는 구글?" 성능·사용성 다 잡은 '제미나이 3' 등판

#AGI #AI #GPT #Gemini #Google #LLM #구글 #생성형AI #오픈AI #제미나이 #제미나이3 #제미나이프로

남시현 sh@itdonga.com

2025.11.20.

[IT동아 남시현 기자] 구글의 AI 어시스턴트 제미나이(Gemini)의 세 번째 버전의 사전 모델인 ‘제미나이 3 Pro’ 프리뷰가 공개됐다. 제미나이는 2년 전 공개된 이래 현재 매달 20억 명이 사용 중이며, 애플리케이션의 월간 활성 이용자가 6억 5000만 명에 달할 정도로 널리 쓰이는 AI다. 제미나이 3은 여러 겹으로 구성된 복잡한 질문이나 아이디어 속의 세밀한 단서까지 이해할 수 있는 최첨단 추론 능력을 갖췄고, 또 최소한의 질문에도 요청과 의도를 더 정확하게 파악하도록 개선됐다. 2년 전 1세대가 텍스트와 이미지를 분석하는 수준이었다면 3세대는 맥락과 분위기까지 읽는 수준으로 진화했다.

제미나이 3는 무료 사용자도 질문 시 ‘사고 모드’라는 이름으로 제공되며, ‘구글 AI 울트라’ 구독자는 더 강화된 버전인 제미나이 3 Deep Think를 먼저 사용해볼 수 있다. 기존 구글 검색엔진에 입력했을 때 제공되는 AI 모드는 이제 제미나이 3 검색으로 구동되며, 구글의 ‘제미나이’ 앱, ‘AI 스튜디오’, 개발자용 ‘버텍스 AI’ 툴, AI 에이전트 개발 플랫폼 ‘구글 안티그래비티’에도 제미나이 3가 적용된다.

정보를 더 잘 이해하고, 알아서 처리하는 데 초점 맞춘 제미나이 3

구글은 제미나이 3 개발에 구글의 자체 AI 가속기인 TPU v5 등의 하드웨어를 동원했지만, 정확히 얼마나 많은 데이터가 사용되었는지는 공개하지 않았다. 이전 세대의 고성능 버전이 아닌 완전히 새로운 모델이며 웹 크롤링, 라이선스 콘텐츠 등으로부터 데이터를 확보했다는 점 정도만 알려졌다.

구글이 제미나이 3를 통해 AI 기반의 차세대 검색 엔진 시장에서도 영향력을 가져가길 원한다. 기본 검색 시 함께 제공되는 AI 모드는 사용자가 검색한 의도에 맞춰 즉석으로 시각 레이아웃을 구성하는 생성형 UI가 적용된다. 이미지를 찾는다면 이미지 중심으로 제공하고, 논문 분석이나 텍스트 위주라면 이에 맞는 화면 구성을 제공하는 식이다.

논문을 입력한 뒤 3D 영상으로 설명해달라는 명령을 내렸을 때의 결과 / 출처=구글

텍스트 및 이미지, 오디오 등 다양한 종류의 데이터를 종합적으로 인식하는 멀티모달 추론 기능은 더 강화됐다. 예를 들어 여러 언어 손글씨로 작성된 레시피를 사진으로 찍어 업로드하면, AI가 자동으로 단어로 전환해 복합적으로 번역한 뒤 문맥에 맞는 레시피로 만든다. 논문의 원문을 입력한 뒤 3D 반응형 이미지로 시각화해서 설명해달라고 하면 동영상을 생성해 설명한다. 한 번에 처리할 수 있는 문맥은 최대 100만 토큰으로 늘어나 대규모 코딩 작업을 한 번에 처리하거나, 서적이나 논문 등의 긴 내용도 바로 입력할 수 있다.

지난해부터 업계를 뜨겁게 달구고 있는 AI 에이전트도 제미나이 3부터 강화된다. 구글은 개발자의 코딩 협업을 넘어 작업 처리까지 진행할 수 있도록 돕는 새로운 에이전트 개발 플랫폼 ‘구글 안티그래비티’를 함께 출시한다. 안티그래비티는 제미나이 3의 향상된 성능을 기반으로 AI 에이전트 개발 작업을 도우며, 편집기와 터미널, 브라우저 등 기존보다 훨씬 더 넓은 작업 영역과 권한을 갖는다. 또 완성된 코드를 자체 검증하는 기능까지 제공된다.

역시나 최고 수준의 성능, 이보다 더 높은 ‘Deep Think’ 모드

제미나이 3 Pro와 2.5 Pro, 클로드 소네트 4.5, GPT-5.1 버전의 각 벤치마크 테스트 결과 / 출처=구글

성능도 비약적으로 향상됐다. 대학원생 급 기출문제로 구성된 GPQA 다이아몬드 테스트는 기존 2.5 Pro가 86.4%, GPT-5.1이 88.1%의 정확도일 때 제미나이 3 Pro는 91.9%를 기록했다. 미국수학경시대회인 AIME 2025는 GPT-5.1이 94%, 클로드 소네트 4.5가 87% 일 때 95%의 정답률을 기록했다. 수학, 인문학, 자연과학 등 100개 이상 분야에서 3000여 개 문제로 구성된 인류 최후의 문제(Humanity’s Last Exam)는 GPT-5.1이 26.5%, 소네트 4.5가 13.7% 일 때 37.5%의 정확성을 기록했다. 여기에 외부 검색 및 코드 도구를 조합하면 최대 45.8%까지 정확성이 향상됐다.

제미나이 3 Pro는 분야별로 AI 성능을 평가하는 LMArena 리더보드에서 종합 1위로 올라섰다. 목록에는 총 270개의 대표 AI가 있으며 제미나이 3 Pro 뒤로 그록 4.1-Thinking과 그록 4.1, 클로드 소네트 4.5, 제미나이 2.5 Pro, GPT-5.1 버전이 순서대로 있다.

구글 제미나이 3 Deep Think의 경우 역대 최고 수준의 성능을 보여준다 / 출처=IT동아

한편 고급 추론 모드인 Deep Think 로 더 좋은 결과를 끌어낼 수 있다. Deep Think는 더 오래 연산을 처리해 정확도를 끌어올리며, 인류 최후의 문제에서 41%로 정확도가 더 오른다. 일반 모드에서 37.5%인 점을 감안하면 향상폭이 꽤 크다. 또 인류 수준의 유연한 사고력을 요구하는 퍼즐 테스트인 ARC-AGI 2에서도 45.1%라는 신기록을 달성했다. 기존 모델들은 10%~15% 정도의 기록에 머물렀다.

AI 성능은 크게 올랐음에도 월 구독 비용은 그대로 유지된다 / 출처=구글

제미나이 3 구독이 포함된 ‘구글 AI 프로’의 이용 가격은 한달 2만 9000원으로 이전과 같다. 고급 사용자 및 제미나이 3 Deep Think 사전 제공이 포함된 ‘구글 AI 울트라’의 이용 가격 역시 프로모션을 제외하면 36만 원으로 유지된다.

외부 서비스로 활용할 때 필요한 API 연동 비용은 꽤 올랐다. 제미나이 2.5 Pro의 API 연동 비용은 100만 토큰당 입력 1.25달러(약 1836원) , 출력이 10달러(약 1만 4690원)였다. 제미나이 3 Pro 프리뷰 API는 현재 100만 토큰당 입력 2달러(약 2938원), 출력 12달러(1만 7632원)로 입력 비용은 60%, 출력 비용은 20%가 올랐다. 대신 기존에는 토큰 수에 제한을 거는 방식으로 이용량을 조절해야 했지만, 이번 버전부터 추론의 강도를 Low 및 High로 설정해 비용을 조절할 수 있다.

사용성과 성능 모두 잡은 AI, 파생 버전에도 기대 모아져

업계의 반응은 뜨겁다. 오픈AI의 GPT-5는 출시 당시 1주일도 안돼 이전 버전을 다시 제공하고, 향후 새 버전을 고도화하겠다며 진화에 나섰었다. 반면 제미나이 3 Pro는 개발자들 사이에서 이미 우수성에 대한 얘기로 회자되고 있으며, 실사용자들 사이에서도 군말이 없다. 무료 이용자와 유료 이용자 대다수에게 큰 불편함이 없다는 말이다. 아직 플래시나 나노 등 시장에 더 파급력이 큰 파생 버전이 공개되지 않았고, 향후 비오(Veo), 이마젠(Imagen), 메드-제미나이(Med-Gemini) 등의 성능 향상에도 영향을 미칠 수 있음을 감안하면 앞으로가 더 기대되는 상황이다. 올해의 AI 트로피는 구글이 수상할 것으로 예측된다.

IT동아 남시현 기자 (sh@itdonga.com)

#AGI #AI #GPT #Gemini #Google #LLM #구글 #생성형AI #오픈AI #제미나이 #제미나이3 #제미나이프로