Mixture of Experts (MoE)

ℹ Info

Mixture of Experts (MoE) — архитектура языковой модели, в которой вместо одного монолитного блока используется набор специализированных подсетей («экспертов»). При обработке каждого токена активируется лишь небольшая часть экспертов, что снижает вычислительную нагрузку без потери качества.

Простыми словами

Представьте большую редакцию с сотней специалистов: юристы, экономисты, переводчики, программисты. Когда поступает задача, её не решают все сразу — её направляют к двум-трём подходящим экспертам. Остальные в это время свободны.

MoE работает точно так же. Модель содержит десятки или сотни «экспертных» слоёв, но на каждый токен активируются только несколько из них. Специальный компонент — роутер (gating network) — решает, кому передать слово.

Как это работает

В стандартной трансформерной модели каждый токен проходит через все нейроны подряд. В MoE-модели слои прямой передачи (feed-forward layers) заменены на MoE-блоки:

Роутер получает представление токена и вычисляет «оценки» для каждого эксперта.
Выбираются top-k экспертов с наивысшими оценками (обычно k = 1–8).
Токен обрабатывается только этими экспертами, результаты взвешиваются и суммируются.
Остальные эксперты не задействованы и не потребляют вычислительных ресурсов.

«MoE позволяет модели быть огромной по знаниям и маленькой по затратам: вы платите только за те параметры, которые реально работают в данный момент.»

Реальные модели на MoE

Модель	Всего параметров	Активно на токен	Экспертов	Активных
Mixtral 8×7B	~47 млрд	~13 млрд	8	2
DeepSeek-V3	671 млрд	37 млрд	256	8+1
Llama 4 Maverick	~400 млрд	~17 млрд	128	1+1
Switch Transformer	до 1.6 трлн	—	до 2048	1

Примечание: OpenAI официально не подтверждала, что GPT-4 использует MoE, однако многие исследователи считают это весьма вероятным.

Преимущества и ограничения

Плюсы:

Модель с 671 млрд параметров в инференсе потребляет вычислений как модель на 37 млрд — это принципиальная экономия.
Разные эксперты специализируются на разных типах данных: коде, диалогах, фактах.
MoE хорошо масштабируется: добавить новых экспертов проще, чем увеличивать плотную сеть.

Минусы:

Память не экономится — все эксперты должны быть загружены в GPU одновременно, так как роутер решает динамически.
Коллапс роутинга: если роутер систематически отдаёт предпочтение одним и тем же экспертам, остальные деградируют. Решается балансировщиками нагрузки.
Сложнее дообучать: на небольших датасетах MoE-модели склонны к переобучению.

Примеры использования

DeepSeek-V3/R1 — MoE-модели от китайской лаборатории DeepSeek, обогнавшие многих конкурентов при значительно меньших затратах на обучение.
Mixtral 8×7B — первая широко доступная MoE-модель с открытыми весами от Mistral AI; на многих бенчмарках превосходила Llama 2 70B, активируя вдвое меньше параметров.
Llama 4 Maverick (Meta, 2025) — флагманская модель линейки Llama 4, использующая MoE с одним общим и одним маршрутизируемым экспертом.

См. также: трансформер (Transformer), инференс (Inference), файн-тюнинг (Fine-tuning), LoRA, дистилляция моделей

Простыми словами

Как это работает

Реальные модели на MoE

Преимущества и ограничения

Примеры использования

Источники

Похожие статьи

Mixture of Experts — MoE (Смесь экспертов)

Mixture of Experts — MoE (Смесь экспертов)

Mixture of Experts — MoE (Смесь экспертов)

12-Factor Agents: как строить надёжные LLM-агенты

Why We Think: почему ИИ нужно «думать» дольше