DiffusionGemma: открытая модель Google, которая генерирует текст в 4 раза быстрее

Год назад на Google I/O 2025 исследователи Google DeepMind показали нечто похожее на фокус: модель заполняла экран текстом целыми блоками — одновременно, а не слово за словом. Технология называлась Gemini Diffusion, была закрытой и доступной лишь избранным тестировщикам по приглашению. Gemini Diffusion был представлен на Google I/O в мае 2025 года как закрытый эксперимент, доступный только по списку ожидания.

Теперь эта же идея превратилась в модель, которую может скачать любой желающий. Знакомьтесь: DiffusionGemma.

Что такое DiffusionGemma и откуда она взялась

DiffusionGemma — генеративная модель от Google DeepMind, построенная на архитектуре Gemma 4 (26B A4B Mixture-of-Experts), которая генерирует токены с помощью дискретной диффузии (discrete diffusion).

DiffusionGemma переносит ту же исследовательскую идею в открытые веса (open weights), построенные поверх базы Gemma 4, — теперь любой может запустить модель локально.

«Построена на интеллекте на параметр семейства Gemma 4 и передовых исследованиях Gemini Diffusion» — Google о DiffusionGemma

По сути, исследователи Брендан О’Донохью и Себастьян Фленнерхаг применили технологию Gemini Diffusion к архитектуре Gemma 4 и выпустили модель под лицензией Apache 2.0.

ℹ Историческая справка

В мае 2025 года Саймон Уиллисон протестировал предварительную версию Gemini Diffusion и зафиксировал скорость 857 токенов в секунду при генерации кода чат-приложения. Тогда Google не стала делать никаких дальнейших объявлений — и вот, спустя год, исследование вернулось уже в виде полноценной открытой модели.

Как работает диффузия в языковых моделях

Чтобы понять, почему DiffusionGemma такая быстрая, нужно разобраться, чем она принципиально отличается от обычных языковых моделей.

Традиционные авторегрессионные языковые модели генерируют текст по одному слову (токену) за раз. Этот последовательный процесс может быть медленным и ограничивать качество и связность вывода.

Диффузионные модели работают иначе: вместо того чтобы напрямую предсказывать текст, они учатся создавать результат, постепенно очищая шум — шаг за шагом. Это позволяет им очень быстро итерировать и исправлять ошибки прямо в процессе генерации.

В основе DiffusionGemma лежит технология, которую Google называет Uniform State Diffusion (равномерная диффузия состояний). Вместо того чтобы писать последовательно, модель открывает «холст» из 256 токенов, заполненных случайными заполнителями, и упорядочивает их все одновременно — шаг за шагом.

На каждом шаге внимание является двунаправленным: каждая позиция на холсте может «смотреть» на все остальные, а не только на те, что стоят левее.


graph TD
    A["Авторегрессионная LLM\n(обычный подход)"] --> B["Токен 1"]
    B --> C["Токен 2"]
    C --> D["Токен 3"]
    D --> E["...по одному"]

    F["DiffusionGemma\n(диффузионный подход)"] --> G["Холст: 256 случайных токенов"]
    G --> H["Итерация 1: шумоподавление"]
    H --> I["Итерация 2: уточнение"]
    I --> J["Готовый блок 256 токенов"]
    J --> K["Следующий блок..."]

Технические характеристики

Модель имеет 26 миллиардов параметров с архитектурой Mixture of Experts (MoE — смесь экспертов), из которых только 3,8 миллиарда активны во время инференса. Контекстное окно составляет 262 144 токена.

Контекстное окно в 256K токенов обеспечивает поддержку более 140 языков.

Это мультимодальная (multimodal) открытая модель: она принимает на вход текст, изображения и видео, а на выходе генерирует текст.

Параметр	Значение
Всего параметров	26B (26 млрд)
Активных параметров при инференсе	3,8B
Архитектура	Mixture of Experts (MoE)
Контекстное окно	262 144 токена (256K)
Поддержка языков	140+
Лицензия	Apache 2.0
Требования к VRAM (квантизация)	18 ГБ
Скорость на NVIDIA H100	1000+ токенов/с
Скорость на RTX 5090	700+ токенов/с

💡 Совет по запуску

Если у вас есть видеокарта с 18+ ГБ видеопамяти (например, RTX 4090 или RTX 5090), вы можете запустить DiffusionGemma локально через Hugging Face Transformers или vLLM — без облака и без платы за каждый запрос.

Скорость: в цифрах

Скорость — главное конкурентное преимущество DiffusionGemma. Построенная на базе Gemma 4, DiffusionGemma обеспечивает до 4-кратного ускорения генерации токенов на GPU: более 700 токенов в секунду на NVIDIA GeForce RTX 5090 и более 1000 токенов в секунду на одном NVIDIA H100.

Команда vLLM с FP8-квантизацией добивается ещё более впечатляющих результатов: 1288 токенов в секунду на H200 — примерно в шесть раз быстрее авторегрессионного базового уровня.

Модель обрабатывает 1200+ токенов вывода в секунду при размере батча 1 на одном H200 (FP8) — и это первая диффузионная LLM, нативно поддерживаемая в vLLM.

Для сравнения: стандартный Gemini 2.0 Flash-Lite обычно генерирует около 250–400 токенов в секунду в большинстве сценариев реального времени.

Где применять DiffusionGemma

Пока авторегрессионные модели Gemma 4 остаются стандартом для высококачественных производственных задач, DiffusionGemma ориентирована на исследователей и разработчиков, которым важна скорость: интерактивная локальная работа, инлайн-редактирование, быстрая итерация, генерация нелинейных текстовых структур.

Генерация 256 токенов параллельно, где каждый токен «видит» все остальные, даёт конкретное преимущество в нелинейных задачах: завершение кода в середине функции, редактирование уже написанного текста, разрешение взаимных ограничений.

Показательный пример: решение судоку

В демонстрации Unsloth дообучил DiffusionGemma решать судоку — задачу, с которой авторегрессионные модели справляются плохо, поскольку каждый токен зависит от будущих. Двунаправленное внимание DiffusionGemma делает это значительно проще.

Базовая модель DiffusionGemma решает примерно 0% задач судоку. После простого рецепта дообучения с использованием JAX правильность вырастает до 80%.

📝 Практическое применение

Когда выбрать DiffusionGemma:

Автодополнение кода в реальном времени
Инлайн-редактирование текста (вставка в середину)
Быстрое прототипирование и итерации
Задачи с взаимозависимыми ограничениями (вроде судоку, аминокислотных последовательностей)

Когда остаться на Gemma 4:

Задачи, требующие максимального качества
Общие диалоги и рассуждения
Производственные сценарии без жёстких требований к latency

Честно о компромиссах: скорость против качества

Google не скрывает главный недостаток модели. Поскольку DiffusionGemma ставит во главу угла скорость и параллельную генерацию, её общее качество вывода ниже, чем у стандартного Gemma 4. Для приложений, требующих максимального качества, Google рекомендует развёртывать стандартный Gemma 4.

DiffusionGemma уступает стандартному Gemma 4 по всем опубликованным бенчмаркам. Скорость достигается ценой качества.

DiffusionGemma — это не «более мощный» Gemma 4. Это более быстрый и менее точный Gemma 4, созданный для конкретных сценариев использования.

⚠ Важно перед внедрением

Не используйте DiffusionGemma там, где критично качество ответа: юридические документы, медицинские консультации, сложные рассуждения. Для таких задач Google рекомендует стандартный авторегрессионный Gemma 4.

Как получить доступ и начать работу

DiffusionGemma — открытые веса под разрешительной лицензией Apache 2.0, запускается полностью на RTX и DGX Spark без облака и платы за токен, с поддержкой «день ноль» в Hugging Face Transformers, vLLM и Unsloth.

Попробовать DiffusionGemma можно на Hugging Face или протестировать бесплатно через GPU-ускоренные API от NVIDIA на build.nvidia.com.

Модель можно запустить через популярные фреймворки инференса: vLLM, Hugging Face Transformers, SGLang и MLX. Для быстрого экспериментирования Google выпускает официальные рецепты обучения с использованием Hackable Diffusion. Развёртывание доступно через Google Cloud Model Garden или NVIDIA NIM.

Быстрый старт с vLLM

vllm serve google/diffusiongemma-26B-A4B-it \
  --max-model-len 262144 \
  --max-num-seqs 4 \
  --gpu-memory-utilization 0.85 \
  --attention-backend TRITON_ATTN \
  --generation-config vllm \
  --hf-overrides '{"diffusion_sampler": "entropy_bound", "diffusion_entropy_bound": 0.1}' \
  --diffusion-config '{"canvas_length": 256}' \
  --enable-chunked-prefill

NVIDIA NIM упрощает развёртывание DiffusionGemma в продакшн: NIM упаковывает модель в оптимизированный контейнеризированный микросервис инференса со встроенной настройкой производительности и стандартными API.

Поддержка NVIDIA: аппаратный стек день первого выхода

NVIDIA оптимизировала DiffusionGemma для ещё более быстрой работы на видеокартах GeForce RTX, платформе RTX PRO и системах DGX Spark — от локальных ПК до облака.

Совместно с NVIDIA была проведена оптимизация для всего аппаратного стека: обеспечена совместимость с потребительскими конфигурациями (квантизация для GPU GeForce RTX 5090 и 4090) и высокая производительность на корпоративных системах (Hopper и Blackwell с использованием продвинутых ядер NVFP4), включая NVIDIA DGX Spark и DGX Station для локального развёртывания.

Итог: почему это важно

DiffusionGemma демонстрирует, что дискретная диффузная генерация текста теперь доступна на уровне открытых весов с интеграцией в производственные стеки инференса, включая vLLM, NVIDIA NeMo, Google Cloud Model Garden и NVIDIA NIM.

Сочетание пропускной способности 1000+ токенов/с на H100 и квантизованного объёма памяти в 18 ГБ VRAM меняет экономику для продуктов с автодополнением кода в реальном времени, которые сегодня требуют выделенных кластеров инференса.

DiffusionGemma — это не просто ещё одна языковая модель. Это первый серьёзный сигнал о том, что диффузионный подход к генерации текста готов выйти из лабораторий и стать инструментом для разработчиков. Скорость, открытая лицензия и интеграция с популярными фреймворками делают её важным экспериментом, за которым стоит следить.

Полезные ссылки:

DiffusionGemma: открытая модель Google, которая генерирует текст в 4 раза быстрее

Что такое DiffusionGemma и откуда она взялась

Как работает диффузия в языковых моделях

Технические характеристики

Скорость: в цифрах

Где применять DiffusionGemma

Показательный пример: решение судоку

Честно о компромиссах: скорость против качества

Как получить доступ и начать работу

Быстрый старт с vLLM

Поддержка NVIDIA: аппаратный стек день первого выхода

Итог: почему это важно

Источники

Похожие статьи

Google вложит $12,5 млн в безопасность open source в эпоху AI

FablePool: краудфандинг идей через AI-агента

Диффузионные модели для генерации видео: полный гайд

Google I/O 2026: главные темы со сцены Dialogues

Главные AI-новости Google за апрель 2026 года