
Gemma 4 12B: мультимодальный ИИ без энкодеров для ноутбука
Google DeepMind выпустила Gemma 4 12B — первую mid-size модель без отдельных энкодеров, работающую на ноутбуке с 16 ГБ памяти и понимающую текст, изображения, аудио и видео.
Google представила Gemma 4 12B: мощный ИИ без лишних энкодеров
Google DeepMind представила Gemma 4 12B — новую модель, призванную принести агентный мультимодальный интеллект прямо на ноутбук. Она занимает нишу между компактной E4B и более мощной 26B MoE, при этом став первой mid-sized моделью в линейке Gemma с нативной поддержкой аудио. По производительности на стандартных бенчмарках Gemma 4 12B вплотную приближается к 26B MoE, используя менее половины её объёма памяти.
Архитектура: никаких отдельных энкодеров
Главный прорыв Gemma 4 12B — encoder-free «Unified»-архитектура: необработанные аудиосигналы и визуальные патчи поступают напрямую в ядро LLM без накладных расходов на вторичные модули обработки.
Традиционные мультимодальные модели используют отдельные энкодеры для перевода изображений и аудио перед передачей в языковую модель. Поскольку раздельные энкодеры увеличивают задержку и расход памяти, Gemma 4 12B обучена с encoder-free архитектурой, интегрируя аудио и видео напрямую.
Как конкретно это работает:
- Vision (зрение): Вместо отдельного vision-энкодера (~550M параметров) используется облегчённый эмбеддинг-модуль на 35M параметров с одним матричным умножением и факторизованным позиционным поиском.
- Audio (аудио): Аудио работает без выделенного энкодера — сырые сигналы проецируются напрямую в то же размерное пространство, что и текстовые токены.
«Encoder-free архитектура означает, что LLM-бэкбон начинает обработку немедленно — энкодеру больше не нужно заканчивать работу первым».
Ключевые характеристики
| Параметр | Gemma 4 12B | Gemma 4 26B MoE |
|---|---|---|
| Размер модели | 12B параметров | 26B параметров |
| VRAM / unified memory | 16 ГБ | >32 ГБ |
| Нативное аудио | ✅ Есть | ❌ Нет (в mid-size) |
| Vision encoder | ❌ Убран | ✅ Отдельный |
| Лицензия | Apache 2.0 | Apache 2.0 |
| MTP (Multi-Token Prediction) | ✅ Встроен | ✅ Встроен |
| Поддержка видео | ✅ Есть | ✅ Есть |
На бенчмарках MMLU Pro модель набирает 77.2%, а на GPQA Diamond — 78.8%, что ставит 12B-модель в один ряд с заметно более крупными системами при менее чем вдвое меньшем объёме памяти.
Как обрабатываются разные модальности
graph TD
A[Текст] --> D[LLM Backbone Gemma 4 12B]
B[Изображение / Видео] --> C[35M Vision Embedder]
C --> D
E[Аудио / 16kHz] --> F[Raw Audio Projection]
F --> D
D --> G[Ответ / Агентное действие]
Encoder-free дизайн снижает мультимодальную задержку: LLM-бэкбон начинает обработку сразу, не ожидая завершения работы энкодера.
Что умеет модель
Gemma 4 12B поддерживает автоматическое распознавание речи (ASR) — транскрибирует аудио без внешнего ASR-пайплайна. Модель также умеет диаризацию — различает говорящих в аудиовходе. Для понимания видео модель обрабатывает кадры совместно с аудио; в демонстрации был разобран 5-минутный фрагмент Google I/O-кейноута — 313 кадров при 1 FPS с бюджетом 70 визуальных токенов на кадр.
Как запустить
Попробовать модель можно в LM Studio, Ollama, Google AI Edge Gallery App и через LiteRT-LM CLI буквально за пару кликов. Для локального инференса поддерживаются Hugging Face Transformers, llama.cpp, MLX, SGLang и vLLM; для дообучения — Unsloth.
# Запуск через Ollama
ollama run gemma4:12b
# Запуск через llama.cpp
./llama-cli -m gemma-4-12b-it-q4_k_m.gguf -p "Опиши это изображение" --image photo.jpg
Модель выпущена под лицензией Apache 2.0 с поддержкой всей экосистемы разработчиков.
Контекст: экосистема Gemma растёт
Благодаря сообществу разработчиков модели Gemma 4 преодолели отметку 150 миллионов скачиваний — сообщество создало на их основе всё от носимых роботизированных рук для физической помощи до корпоративных систем безопасности.
Этот релиз снижает аппаратный порог для продвинутых мультимодальных и агентных рабочих процессов, делая локальный запуск на потребительских ноутбуках реальностью. Для предприятий, стремящихся децентрализовать AI-нагрузки, Gemma 4 12B предлагает редкое сочетание эффективности edge-устройств и рассуждений уровня frontier-моделей — особенно если организации нужна приватная мультимодальная обработка без задержек и стоимости облака.