Google представила Gemma 4 12B: мощный ИИ без лишних энкодеров

Google DeepMind представила Gemma 4 12B — новую модель, призванную принести агентный мультимодальный интеллект прямо на ноутбук. Она занимает нишу между компактной E4B и более мощной 26B MoE, при этом став первой mid-sized моделью в линейке Gemma с нативной поддержкой аудио. По производительности на стандартных бенчмарках Gemma 4 12B вплотную приближается к 26B MoE, используя менее половины её объёма памяти.


Архитектура: никаких отдельных энкодеров

Главный прорыв Gemma 4 12B — encoder-free «Unified»-архитектура: необработанные аудиосигналы и визуальные патчи поступают напрямую в ядро LLM без накладных расходов на вторичные модули обработки.

Традиционные мультимодальные модели используют отдельные энкодеры для перевода изображений и аудио перед передачей в языковую модель. Поскольку раздельные энкодеры увеличивают задержку и расход памяти, Gemma 4 12B обучена с encoder-free архитектурой, интегрируя аудио и видео напрямую.

Как конкретно это работает:

  • Vision (зрение): Вместо отдельного vision-энкодера (~550M параметров) используется облегчённый эмбеддинг-модуль на 35M параметров с одним матричным умножением и факторизованным позиционным поиском.
  • Audio (аудио): Аудио работает без выделенного энкодера — сырые сигналы проецируются напрямую в то же размерное пространство, что и текстовые токены.

«Encoder-free архитектура означает, что LLM-бэкбон начинает обработку немедленно — энкодеру больше не нужно заканчивать работу первым».

ℹ Что такое encoder-free?
В классических мультимодальных моделях изображение сначала обрабатывается отдельным vision-энкодером (например, CLIP или SigLIP), а уже потом передаётся в LLM. Encoder-free означает, что этот промежуточный шаг убран: модальности подаются прямо в языковую модель, сокращая задержку и потребление памяти.

Ключевые характеристики

ПараметрGemma 4 12BGemma 4 26B MoE
Размер модели12B параметров26B параметров
VRAM / unified memory16 ГБ>32 ГБ
Нативное аудио✅ Есть❌ Нет (в mid-size)
Vision encoder❌ Убран✅ Отдельный
ЛицензияApache 2.0Apache 2.0
MTP (Multi-Token Prediction)✅ Встроен✅ Встроен
Поддержка видео✅ Есть✅ Есть

На бенчмарках MMLU Pro модель набирает 77.2%, а на GPQA Diamond — 78.8%, что ставит 12B-модель в один ряд с заметно более крупными системами при менее чем вдвое меньшем объёме памяти.


Как обрабатываются разные модальности


graph TD
    A[Текст] --> D[LLM Backbone Gemma 4 12B]
    B[Изображение / Видео] --> C[35M Vision Embedder]
    C --> D
    E[Аудио / 16kHz] --> F[Raw Audio Projection]
    F --> D
    D --> G[Ответ / Агентное действие]

Encoder-free дизайн снижает мультимодальную задержку: LLM-бэкбон начинает обработку сразу, не ожидая завершения работы энкодера.


Что умеет модель

Gemma 4 12B поддерживает автоматическое распознавание речи (ASR) — транскрибирует аудио без внешнего ASR-пайплайна. Модель также умеет диаризацию — различает говорящих в аудиовходе. Для понимания видео модель обрабатывает кадры совместно с аудио; в демонстрации был разобран 5-минутный фрагмент Google I/O-кейноута — 313 кадров при 1 FPS с бюджетом 70 визуальных токенов на кадр.

💡 MTP-ускорение
Gemma 4 12B поставляется с Multi-Token Prediction (MTP) drafters — механизмом спекулятивного декодирования, снижающим латентность генерации. Эти дraftеры обеспечивают до 3x ускорение без деградации качества и логики рассуждений.

Как запустить

Попробовать модель можно в LM Studio, Ollama, Google AI Edge Gallery App и через LiteRT-LM CLI буквально за пару кликов. Для локального инференса поддерживаются Hugging Face Transformers, llama.cpp, MLX, SGLang и vLLM; для дообучения — Unsloth.

# Запуск через Ollama
ollama run gemma4:12b

# Запуск через llama.cpp
./llama-cli -m gemma-4-12b-it-q4_k_m.gguf -p "Опиши это изображение" --image photo.jpg

Модель выпущена под лицензией Apache 2.0 с поддержкой всей экосистемы разработчиков.

📝 Gemma Skills — новый репозиторий для агентов
Вместе с моделью Google выпускает официальный Skills Repository — библиотеку навыков, специально разработанную для того, чтобы агенты могли строить решения на базе моделей Gemma.

Контекст: экосистема Gemma растёт

Благодаря сообществу разработчиков модели Gemma 4 преодолели отметку 150 миллионов скачиваний — сообщество создало на их основе всё от носимых роботизированных рук для физической помощи до корпоративных систем безопасности.

Этот релиз снижает аппаратный порог для продвинутых мультимодальных и агентных рабочих процессов, делая локальный запуск на потребительских ноутбуках реальностью. Для предприятий, стремящихся децентрализовать AI-нагрузки, Gemma 4 12B предлагает редкое сочетание эффективности edge-устройств и рассуждений уровня frontier-моделей — особенно если организации нужна приватная мультимодальная обработка без задержек и стоимости облака.