Gemma 4 12B: мультимодальный ИИ без энкодеров для ноутбука

Google представила Gemma 4 12B: мощный ИИ без лишних энкодеров

Google DeepMind представила Gemma 4 12B — новую модель, призванную принести агентный мультимодальный интеллект прямо на ноутбук. Она занимает нишу между компактной E4B и более мощной 26B MoE, при этом став первой mid-sized моделью в линейке Gemma с нативной поддержкой аудио. По производительности на стандартных бенчмарках Gemma 4 12B вплотную приближается к 26B MoE, используя менее половины её объёма памяти.

Архитектура: никаких отдельных энкодеров

Главный прорыв Gemma 4 12B — encoder-free «Unified»-архитектура: необработанные аудиосигналы и визуальные патчи поступают напрямую в ядро LLM без накладных расходов на вторичные модули обработки.

Традиционные мультимодальные модели используют отдельные энкодеры для перевода изображений и аудио перед передачей в языковую модель. Поскольку раздельные энкодеры увеличивают задержку и расход памяти, Gemma 4 12B обучена с encoder-free архитектурой, интегрируя аудио и видео напрямую.

Как конкретно это работает:

Vision (зрение): Вместо отдельного vision-энкодера (~550M параметров) используется облегчённый эмбеддинг-модуль на 35M параметров с одним матричным умножением и факторизованным позиционным поиском.
Audio (аудио): Аудио работает без выделенного энкодера — сырые сигналы проецируются напрямую в то же размерное пространство, что и текстовые токены.

«Encoder-free архитектура означает, что LLM-бэкбон начинает обработку немедленно — энкодеру больше не нужно заканчивать работу первым».

ℹ Что такое encoder-free?

В классических мультимодальных моделях изображение сначала обрабатывается отдельным vision-энкодером (например, CLIP или SigLIP), а уже потом передаётся в LLM. Encoder-free означает, что этот промежуточный шаг убран: модальности подаются прямо в языковую модель, сокращая задержку и потребление памяти.

Ключевые характеристики

Параметр	Gemma 4 12B	Gemma 4 26B MoE
Размер модели	12B параметров	26B параметров
VRAM / unified memory	16 ГБ	>32 ГБ
Нативное аудио	✅ Есть	❌ Нет (в mid-size)
Vision encoder	❌ Убран	✅ Отдельный
Лицензия	Apache 2.0	Apache 2.0
MTP (Multi-Token Prediction)	✅ Встроен	✅ Встроен
Поддержка видео	✅ Есть	✅ Есть

На бенчмарках MMLU Pro модель набирает 77.2%, а на GPQA Diamond — 78.8%, что ставит 12B-модель в один ряд с заметно более крупными системами при менее чем вдвое меньшем объёме памяти.

Как обрабатываются разные модальности


graph TD
    A[Текст] --> D[LLM Backbone Gemma 4 12B]
    B[Изображение / Видео] --> C[35M Vision Embedder]
    C --> D
    E[Аудио / 16kHz] --> F[Raw Audio Projection]
    F --> D
    D --> G[Ответ / Агентное действие]

Encoder-free дизайн снижает мультимодальную задержку: LLM-бэкбон начинает обработку сразу, не ожидая завершения работы энкодера.

Что умеет модель

Gemma 4 12B поддерживает автоматическое распознавание речи (ASR) — транскрибирует аудио без внешнего ASR-пайплайна. Модель также умеет диаризацию — различает говорящих в аудиовходе. Для понимания видео модель обрабатывает кадры совместно с аудио; в демонстрации был разобран 5-минутный фрагмент Google I/O-кейноута — 313 кадров при 1 FPS с бюджетом 70 визуальных токенов на кадр.

💡 MTP-ускорение

Gemma 4 12B поставляется с Multi-Token Prediction (MTP) drafters — механизмом спекулятивного декодирования, снижающим латентность генерации. Эти дraftеры обеспечивают до 3x ускорение без деградации качества и логики рассуждений.

Как запустить

Попробовать модель можно в LM Studio, Ollama, Google AI Edge Gallery App и через LiteRT-LM CLI буквально за пару кликов. Для локального инференса поддерживаются Hugging Face Transformers, llama.cpp, MLX, SGLang и vLLM; для дообучения — Unsloth.

# Запуск через Ollama
ollama run gemma4:12b

# Запуск через llama.cpp
./llama-cli -m gemma-4-12b-it-q4_k_m.gguf -p "Опиши это изображение" --image photo.jpg

Модель выпущена под лицензией Apache 2.0 с поддержкой всей экосистемы разработчиков.

📝 Gemma Skills — новый репозиторий для агентов

Вместе с моделью Google выпускает официальный Skills Repository — библиотеку навыков, специально разработанную для того, чтобы агенты могли строить решения на базе моделей Gemma.

Контекст: экосистема Gemma растёт

Благодаря сообществу разработчиков модели Gemma 4 преодолели отметку 150 миллионов скачиваний — сообщество создало на их основе всё от носимых роботизированных рук для физической помощи до корпоративных систем безопасности.

Этот релиз снижает аппаратный порог для продвинутых мультимодальных и агентных рабочих процессов, делая локальный запуск на потребительских ноутбуках реальностью. Для предприятий, стремящихся децентрализовать AI-нагрузки, Gemma 4 12B предлагает редкое сочетание эффективности edge-устройств и рассуждений уровня frontier-моделей — особенно если организации нужна приватная мультимодальная обработка без задержек и стоимости облака.

Google представила Gemma 4 12B: мощный ИИ без лишних энкодеров

Архитектура: никаких отдельных энкодеров

Ключевые характеристики

Как обрабатываются разные модальности

Что умеет модель

Как запустить

Контекст: экосистема Gemma растёт

Источники

Похожие статьи

DiffusionGemma: открытая модель Google, которая генерирует текст в 4 раза быстрее

Google вложит $12,5 млн в безопасность open source в эпоху AI

Wigolo: веб-интеллект для AI-агентов без ключей и облака

YimMenuV2: открытый мод-мену для GTA 5 Enhanced

Open Interpreter: агент для дешёвых моделей на Rust