[AI 써봄] “온-디바이스 AI의 시작?” 구글 젬마 4와의 첫 만남

강형석 redbk@itdonga.com

2026.04.09.

[IT동아 강형석 기자] 우리가 쓰는 생성형 인공지능(AI) 서비스는 네트워크(온라인) 연결이 필수다. AI가 방대한 데이터를 갖춘 데이터센터 안에서 학습·추론하기 때문이다. 학습 데이터가 방대한 만큼 정교하고 뛰어난 결과물을 제공한다. 하지만 데스크톱, 노트북, 스마트 기기 같은 소형 기기에서 AI를 직접 구동하는 온-디바이스(On-Device)에 대한 수요도 만만치 않다. 네트워크상에 퍼진 범용 지식이 아니라, 자신이 보유한 데이터를 직접 활용하려는 이들이 존재해서다.

시장의 요구에 따라 빅테크 기업들은 오픈소스(개방형) 형태의 AI 언어모델을 잇달아 공개했다. 메타 라마(Llama), 알리바바 큐웬(Qwen), 딥시크(DeepSeek) 등이 대표적이다. 구글도 젬마(Gemma) 모델을 앞세워 온-디바이스 AI 시장을 꾸준히 준비해왔다. 그리고 2026년 4월 2일, 4세대 젬마(Gemma 4) 언어모델을 공개하며 업계의 주목을 받았다.

젬마 4는 AI 학습 가중치를 반영해 구축한 오픈 웨이트(Open Weights)형 언어모델이다. 스마트폰부터 단일 그래픽 처리장치(GPU) 시스템까지 다양한 환경에서 AI를 구동 가능하도록 설계됐다. 텍스트·시각·음성 정보를 처음부터 함께 학습한 네이티브-멀티모달(Native-Multimodal) 능력과 기기 성능에 맞춘 4가지 모델(E2B·E4B·26B A4B·31B)을 갖춘 것이 차별점이다. 외부 도구와의 호환성 강화에도 공을 들였다.

효율성과 유연함 강조한 온-디바이스 언어모델

젬마 4는 사용자들의 다양한 컴퓨팅 환경을 고려해 E2B·E4B·26B A4B·31B 등 여러 매개변수(파라미터) 크기로 세분화해 제공한다. 모델명 중 E는 효율성(Effective)을 뜻하며, 전력 소모가 적은 엣지 환경에 특화된 경량 모델이다.

콘텍스트 윈도우(Context Window) 용량도 128K에서 256K까지 사용 가능하다. 콘텍스트 윈도우란 AI가 하나의 대화 과정에서 잊지 않고 기억·분석 가능한 정보의 범위, 이른바 '단기 기억력'의 크기를 뜻한다. 256K 수준이면 수만 줄에 달하는 방대한 소프트웨어 소스 코드나 두꺼운 전공 서적 여러 권 분량의 문서를 단숨에 읽어낸다. 전체 맥락을 아우르는 고난도 작업도 거뜬히 처리한다는 의미다. 140개 이상의 언어를 자연스럽게 다루는 다국어 처리 능력도 갖췄다.

여기에 더해 대화형 챗봇 역할을 넘어, 스스로 논리적인 계획을 세우고 실제 도구를 활용해 행동으로 옮기는 에이전틱 워크플로우(Agentic Workflows) 능력도 강화했다. 구글은 개발자들이 에이전트 AI를 수월하게 개발할 수 있도록 유연한 모듈형 구조의 에이전트 개발 도구(ADK, Agent Development Kit)도 함께 배포했다.

에이전틱 워크플로우를 활용하면 복잡한 수학적 추론, 오프라인 환경에서의 소프트웨어 코드 자동 생성, 구조화된 데이터 출력이 가능하다. 인간을 대신해 특정 업무를 독립적으로 수행하는 자율형 AI 비서를 구현할 기반이 마련된 셈이다. 학습 데이터 기준은 2025년 1월이다.

젬마 4를 간편하게 사용하려면?

젬마 4를 활용하는 방법은 여러 가지다. 여느 생성형 AI 서비스처럼 편리하게 쓰려면 LM스튜디오(LM Studio) 혹은 올라마(Ollama)를 설치하는 편이 유리하다. 기기 내에서 직접 다루는 방식으로는 MLX(애플 실리콘용 머신러닝 프레임워크), LiteRT-LM(교차 플랫폼 라이브러리), llama.cpp(소프트웨어 라이브러리) 등이 있다. 처음 접하는 사용자라면 간편한 설치를 지원하는 올라마가 진입 장벽이 낮다.

다양한 설치 방법이 있지만, 올라마(Ollama)를 활용하는 게 쉬운 편이다. 소프트웨어는 올라마 홈페이지에서 운영체제 환경에 따라 내려 받으면 된다 / 출처=올라마 홈페이지

올라마 설치 방법은 간단하다. 올라마 홈페이지에 접속해 사용 중인 운영체제에 맞는 파일을 내려받으면 된다. 맥OS(macOS), 리눅스(Linux), 윈도(Windows) 중에서 선택 가능하다.

올라마를 처음 실행하면 젬마 4를 선택할 수 없으므로 별도 설치해야 한다 / 출처=IT동아

설치가 마무리되면 별도의 창이 실행된다. 이 창에서 생성 AI 서비스처럼 텍스트를 입력하거나, 음성·영상·사진 파일을 올려 분석을 요청하는 식이다. 다만 이 상태에서 젬마 4를 선택하면 사용이 불가능하다. 젬마 4 언어모델이 아직 설치되지 않았기 때문이다.

명령 프롬프트에 올라마 언어 설치 명령어를 통해 젬마4 모델을 설치하면 된다 / 출처=IT동아

그렇다면 젬마 4 언어모델은 어떻게 설치할 수 있을까? 윈도 기준으로 '명령 프롬프트'를 실행한 뒤, 올라마 언어 설치 명령어를 입력하면 된다. 언어모델 설치 명령어는 'ollama pull'이며, 젬마 4를 설치하려면 'ollama pull gemma4'를 입력하면 된다.

젬마4를 설치하면 E4B 모델이 기본 선택되므로 명령어 뒤에 언어모델명을 직접 입력해야 한다 / 출처=IT동아

다만 'ollama pull gemma4'를 입력하면 기본 모델인 E4B가 설치된다. 저장공간은 약 9.6GB가 필요하다. 더 큰 매개변수의 모델을 원한다면 추가 명령어를 입력해야 한다. 가장 큰 31B 모델은 'ollama pull gemma4:31b'를 입력하면 되며, 약 20GB의 저장공간을 차지한다. 26B-A4B 모델은 18GB 수준이므로, 설치 전에 시스템 저장공간을 넉넉히 확보해두는 것이 좋다.

언어모델 설치가 끝나면 올라마 실행 시 '젬마4(gemma4)' 선택이 가능해진다. 이 상태에서 명령어를 입력하면 기기 내 AI가 사용자의 맥락을 파악해 그에 맞는 답변을 제공한다. 젬마 4만으로 부족하다면 온라인 검색 연동도 활용 가능하다. 언어모델 옆 지구 모양 아이콘을 클릭하면 되는데, 이 기능을 쓰려면 올라마 계정이 필요하다. 구글 또는 깃허브 계정으로 가입할 수 있다.

언어모델 설치가 완료되면 올라마에서 젬마4가 활성화된다 / 출처=IT동아

언어모델 사용 전에는 시스템 사양 확인도 빠뜨릴 수 없다. 특히 GPU의 비디오 메모리(VRAM) 용량에 따라 구동 가능한 모델이 달라진다. VRAM이 부족하면 대형 매개변수 모델을 실행하기 어렵기 때문이다. E2B 모델은 최소 4GB VRAM이 필요하며, 라즈베리 파이나 저사양 노트북에서도 구동이 가능하다. E4B 모델은 최소 6GB VRAM을 요구하며, 2023년 이후 출시된 노트북이라면 대부분 무리 없이 돌아갈 것으로 예상된다. 26B 모델은 8GB VRAM 기반 GPU면 충분하고, 31B 모델은 16GB~24GB 이상의 VRAM을 갖춘 고성능 GPU가 필요하다.

기본 매개변수 모델이어도 가능성 충분해

올라마에서 젬마 4를 구동해 명령어를 입력해보니 여느 생성 AI 서비스 수준의 답변을 내놓는 경우가 많았다. 대규모 데이터를 학습한 클라우드형 생성 AI와 완전히 동일하다고는 할 수 없지만, 유사성을 갖췄다는 점에서 젬마 4의 잠재력이 돋보인다. 명령어 활용이나 코딩에 젬마 4를 써보고 싶다면 대형 파라미터 모델을 설치해 도전해볼 만하다.

결과물 분석은 조금 느리지만, 결과물은 생성 AI 못지 않다. 이미지ㆍ영상 생성은 어렵지만 분석에 능하므로 잘 활용하면 잠재력이 크다 / 출처=IT동아

한편 젬마 4는 이미지·영상 생성이 아닌 분석과 변수 확인에 초점을 맞췄다. 텍스트 기반 모델이라는 태생적 한계 탓이다. 다만 영상 속 사물을 분석해 서비스를 구축하거나 에이전트를 개발하는 방식으로 얼마든지 응용할 수 있다. 오디오 분석도 마찬가지로, 스크립트를 구성해 기기 위에서 음성 받아쓰기나 번역을 직접 수행하도록 만드는 것도 가능하다.

젬마 4는 클라우드 서버에서만 작동하는 AI에서 개인 기기 위에서 프라이버시를 지키며 작동하는 AI의 가능성을 제시한다. 모니터 화면 안에 머물지 않고 다양한 기기로 뻗어나가는 온-디바이스 AI의 잠재력을 보여준 사례다.

IT동아 강형석 기자 (redbk@itdonga.com)

#AI #gemma4 #구글 #온디바이스AI #인공지능 #젬마4