ℹ Info
Mixture of Experts (MoE) — архитектура языковой модели, в которой вместо одного монолитного блока используется набор специализированных подсетей («экспертов»). При обработке каждого токена активируется лишь небольшая часть экспертов, что снижает вычислительную нагрузку без потери качества.

Простыми словами

Представьте большую редакцию с сотней специалистов: юристы, экономисты, переводчики, программисты. Когда поступает задача, её не решают все сразу — её направляют к двум-трём подходящим экспертам. Остальные в это время свободны.

MoE работает точно так же. Модель содержит десятки или сотни «экспертных» слоёв, но на каждый токен активируются только несколько из них. Специальный компонент — роутер (gating network) — решает, кому передать слово.

Как это работает

В стандартной трансформерной модели каждый токен проходит через все нейроны подряд. В MoE-модели слои прямой передачи (feed-forward layers) заменены на MoE-блоки:

  1. Роутер получает представление токена и вычисляет «оценки» для каждого эксперта.
  2. Выбираются top-k экспертов с наивысшими оценками (обычно k = 1–8).
  3. Токен обрабатывается только этими экспертами, результаты взвешиваются и суммируются.
  4. Остальные эксперты не задействованы и не потребляют вычислительных ресурсов.

«MoE позволяет модели быть огромной по знаниям и маленькой по затратам: вы платите только за те параметры, которые реально работают в данный момент.»

Реальные модели на MoE

МодельВсего параметровАктивно на токенЭкспертовАктивных
Mixtral 8×7B~47 млрд~13 млрд82
DeepSeek-V3671 млрд37 млрд2568+1
Llama 4 Maverick~400 млрд~17 млрд1281+1
Switch Transformerдо 1.6 трлндо 20481

Примечание: OpenAI официально не подтверждала, что GPT-4 использует MoE, однако многие исследователи считают это весьма вероятным.

Преимущества и ограничения

Плюсы:

  • Модель с 671 млрд параметров в инференсе потребляет вычислений как модель на 37 млрд — это принципиальная экономия.
  • Разные эксперты специализируются на разных типах данных: коде, диалогах, фактах.
  • MoE хорошо масштабируется: добавить новых экспертов проще, чем увеличивать плотную сеть.

Минусы:

  • Память не экономится — все эксперты должны быть загружены в GPU одновременно, так как роутер решает динамически.
  • Коллапс роутинга: если роутер систематически отдаёт предпочтение одним и тем же экспертам, остальные деградируют. Решается балансировщиками нагрузки.
  • Сложнее дообучать: на небольших датасетах MoE-модели склонны к переобучению.

Примеры использования

  • DeepSeek-V3/R1 — MoE-модели от китайской лаборатории DeepSeek, обогнавшие многих конкурентов при значительно меньших затратах на обучение.
  • Mixtral 8×7B — первая широко доступная MoE-модель с открытыми весами от Mistral AI; на многих бенчмарках превосходила Llama 2 70B, активируя вдвое меньше параметров.
  • Llama 4 Maverick (Meta, 2025) — флагманская модель линейки Llama 4, использующая MoE с одним общим и одним маршрутизируемым экспертом.

См. также: трансформер (Transformer), инференс (Inference), файн-тюнинг (Fine-tuning), LoRA, дистилляция моделей