Mixture of Experts — MoE (Смесь экспертов)
MoE (Mixture of Experts) — архитектура нейросетей, при которой модель активирует лишь часть своих параметров для каждого токена, достигая огромного масштаба при разумных вычислительных затратах.
Зачем это нужно
Классическая (плотная) языковая модель обрабатывает каждый токен через все свои параметры целиком. Это честно, но расточительно: слово «кот» не требует тех же нейронов, что слово «интеграл». MoE решает эту проблему элегантно — модель становится огромной на бумаге, но «думает» компактно.
«MoE позволяет строить модели с сотнями миллиардов параметров, активируя при этом лишь десятки — как энциклопедия, в которой открывается только нужная статья.»
Как это работает
Внутри трансформерной архитектуры обычные слои FFN (feed-forward network) заменяются на MoE-слои. Каждый такой слой устроен так:
- Эксперты — несколько независимых нейронных подсетей (от 8 до 256 и более).
- Маршрутизатор (router/gating network) — небольшая сеть, которая для каждого токена вычисляет вероятности и выбирает top-k экспертов.
- Агрегация — результаты выбранных экспертов взвешенно суммируются и передаются дальше.
Чаще всего используется top-2 маршрутизация: каждый токен обрабатывают ровно два эксперта. Например, в Mixtral 8x7B работают 2 из 8 доступных экспертов — это даёт 47B активных параметров при общем объёме 47B (из-за удвоения FFN блоков).
Характеристики ведущих MoE-моделей (2026)
| Модель | Всего параметров | Активные параметры | Кол-во экспертов | Маршрутизация |
|---|---|---|---|---|
| DeepSeek-R1 | 671B | 37B | 256 | top-8 |
| Qwen3-235B-A22B | 235B | 22B | 128 | top-8 |
| Mixtral 8x7B | ~47B | ~13B | 8 | top-2 |
| Llama 4 Scout | ~109B | ~17B | 16 | top-1 |
| Gemini 1.5 Pro | не раскрыто | не раскрыто | не раскрыто | — |
По данным независимого бенчмарка Artificial Analysis, к началу 2026 года все 10 ведущих открытых моделей используют MoE-архитектуру.
Преимущества и ограничения
Плюсы:
- Генерация токенов значительно быстрее, чем у плотных моделей сопоставимого «полного» размера
- Существенно меньше вычислений (FLOP) на инференс — ниже стоимость API
- Возможность обучать модели с меньшим бюджетом на то же качество
Минусы:
- Высокие требования к RAM/VRAM: все параметры всех экспертов должны быть загружены, даже если активна лишь малая часть
- Сложнее дообучать (fine-tuning): модели склонны к переобучению на небольших датасетах
- Балансировка нагрузки между экспертами требует отдельных механизмов — без них некоторые эксперты перегружаются, остальные простаивают
Примеры применения
- DeepSeek-R1 (671B/37B) достиг результата 79,8% на AIME 2025, конкурируя с проприетарными моделями при значительно меньших затратах на вычисления
- Mixtral 8x7B от Mistral AI стал первой широко доступной открытой MoE-моделью, задав стандарт эффективности для open-source сообщества
- Qwen3-235B-A22B обучен на 36 триллионах токенов с 128 экспертами, демонстрируя что MoE масштабируется и на обучении, и на инференсе
См. также: трансформер, LLM (большая языковая модель), инференс, квантизация, fine-tuning
Источники
- https://huggingface.co/blog/moe
- https://friendli.ai/blog/moe-models-comparison
- https://blogs.nvidia.com/blog/mixture-of-experts-frontier-models/
- https://www.buildfastwithai.com/blogs/mixture-of-experts-moe-explained