Mixture of Experts (MoE)
Mixture of Experts (MoE) — архитектура нейросети, при которой модель активирует не все параметры сразу, а только часть «экспертов», подходящих для конкретного токена. Это позволяет создавать огромные модели, не расплачиваясь за их размер при каждом запросе.
Простыми словами
Представьте большую редакцию с сотней специалистов: юристы, экономисты, переводчики, программисты. Когда поступает задача, её не решают все сразу — её направляют к двум-трём подходящим экспертам. Остальные в это время свободны.
MoE работает точно так же. Модель содержит десятки или сотни «экспертных» слоёв, но на каждый токен активируются только несколько из них. Специальный компонент — роутер (gating network) — решает, кому передать слово.
Как это работает
В стандартной трансформерной модели каждый токен проходит через все нейроны подряд. В MoE-модели слои прямой передачи (feed-forward layers) заменены на MoE-блоки:
- Роутер получает представление токена и вычисляет «оценки» для каждого эксперта.
- Выбираются top-k экспертов с наивысшими оценками (обычно k = 1–8).
- Токен обрабатывается только этими экспертами, результаты взвешиваются и суммируются.
- Остальные эксперты не задействованы и не потребляют вычислительных ресурсов.
«MoE позволяет модели быть огромной по знаниям и маленькой по затратам: вы платите только за те параметры, которые реально работают в данный момент.»
Реальные модели на MoE
| Модель | Всего параметров | Активно на токен | Экспертов | Активных |
|---|---|---|---|---|
| Mixtral 8×7B | ~47 млрд | ~13 млрд | 8 | 2 |
| DeepSeek-V3 | 671 млрд | 37 млрд | 256 | 8+1 |
| Llama 4 Maverick | ~400 млрд | ~17 млрд | 128 | 1+1 |
| Switch Transformer | до 1.6 трлн | — | до 2048 | 1 |
Примечание: OpenAI официально не подтверждала, что GPT-4 использует MoE, однако многие исследователи считают это весьма вероятным.
Преимущества и ограничения
Плюсы:
- Модель с 671 млрд параметров в инференсе потребляет вычислений как модель на 37 млрд — это принципиальная экономия.
- Разные эксперты специализируются на разных типах данных: коде, диалогах, фактах.
- MoE хорошо масштабируется: добавить новых экспертов проще, чем увеличивать плотную сеть.
Минусы:
- Память не экономится — все эксперты должны быть загружены в GPU одновременно, так как роутер решает динамически.
- Коллапс роутинга: если роутер систематически отдаёт предпочтение одним и тем же экспертам, остальные деградируют. Решается балансировщиками нагрузки.
- Сложнее дообучать: на небольших датасетах MoE-модели склонны к переобучению.
Примеры использования
- DeepSeek-V3/R1 — MoE-модели от китайской лаборатории DeepSeek, обогнавшие многих конкурентов при значительно меньших затратах на обучение.
- Mixtral 8×7B — первая широко доступная MoE-модель с открытыми весами от Mistral AI; на многих бенчмарках превосходила Llama 2 70B, активируя вдвое меньше параметров.
- Llama 4 Maverick (Meta, 2025) — флагманская модель линейки Llama 4, использующая MoE с одним общим и одним маршрутизируемым экспертом.
См. также: трансформер (Transformer), инференс (Inference), файн-тюнинг (Fine-tuning), LoRA, дистилляция моделей
Источники
- https://localaimaster.com/blog/mixture-of-experts-explained
- https://friendli.ai/blog/moe-models-comparison
- https://developer.nvidia.com/blog/applying-mixture-of-experts-in-llm-architectures/
- https://arxiv.org/pdf/2412.19437