ℹ Info
Mixture of Experts (MoE) — архитектура нейронной сети, в которой вместо одной большой сети используется набор специализированных «экспертов». Для каждого входного токена специальный маршрутизатор (router) выбирает лишь несколько экспертов из всего набора — остальные в обработке не участвуют.

Зачем это нужно

Классическая (плотная) языковая модель обрабатывает каждый токен через все свои параметры целиком. Это честно, но расточительно: слово «кот» не требует тех же нейронов, что слово «интеграл». MoE решает эту проблему элегантно — модель становится огромной на бумаге, но «думает» компактно.

«MoE позволяет строить модели с сотнями миллиардов параметров, активируя при этом лишь десятки — как энциклопедия, в которой открывается только нужная статья.»

Как это работает

Внутри трансформерной архитектуры обычные слои FFN (feed-forward network) заменяются на MoE-слои. Каждый такой слой устроен так:

  1. Эксперты — несколько независимых нейронных подсетей (от 8 до 256 и более).
  2. Маршрутизатор (router/gating network) — небольшая сеть, которая для каждого токена вычисляет вероятности и выбирает top-k экспертов.
  3. Агрегация — результаты выбранных экспертов взвешенно суммируются и передаются дальше.

Чаще всего используется top-2 маршрутизация: каждый токен обрабатывают ровно два эксперта. Например, в Mixtral 8x7B работают 2 из 8 доступных экспертов — это даёт 47B активных параметров при общем объёме 47B (из-за удвоения FFN блоков).

Характеристики ведущих MoE-моделей (2026)

МодельВсего параметровАктивные параметрыКол-во экспертовМаршрутизация
DeepSeek-R1671B37B256top-8
Qwen3-235B-A22B235B22B128top-8
Mixtral 8x7B~47B~13B8top-2
Llama 4 Scout~109B~17B16top-1
Gemini 1.5 Proне раскрытоне раскрытоне раскрыто

По данным независимого бенчмарка Artificial Analysis, к началу 2026 года все 10 ведущих открытых моделей используют MoE-архитектуру.

Преимущества и ограничения

Плюсы:

  • Генерация токенов значительно быстрее, чем у плотных моделей сопоставимого «полного» размера
  • Существенно меньше вычислений (FLOP) на инференс — ниже стоимость API
  • Возможность обучать модели с меньшим бюджетом на то же качество

Минусы:

  • Высокие требования к RAM/VRAM: все параметры всех экспертов должны быть загружены, даже если активна лишь малая часть
  • Сложнее дообучать (fine-tuning): модели склонны к переобучению на небольших датасетах
  • Балансировка нагрузки между экспертами требует отдельных механизмов — без них некоторые эксперты перегружаются, остальные простаивают

Примеры применения

  • DeepSeek-R1 (671B/37B) достиг результата 79,8% на AIME 2025, конкурируя с проприетарными моделями при значительно меньших затратах на вычисления
  • Mixtral 8x7B от Mistral AI стал первой широко доступной открытой MoE-моделью, задав стандарт эффективности для open-source сообщества
  • Qwen3-235B-A22B обучен на 36 триллионах токенов с 128 экспертами, демонстрируя что MoE масштабируется и на обучении, и на инференсе

См. также: трансформер, LLM (большая языковая модель), инференс, квантизация, fine-tuning