Mixture of Experts — MoE (Смесь экспертов) — AI-Uchi — Всё об искусственном интеллекте

ℹ Info

Mixture of Experts (MoE) — архитектура нейронной сети, в которой вместо одной большой сети используется набор специализированных «экспертов». Для каждого входного токена специальный маршрутизатор (router) выбирает лишь несколько экспертов из всего набора — остальные в обработке не участвуют.

Зачем это нужно

Классическая (плотная) языковая модель обрабатывает каждый токен через все свои параметры целиком. Это честно, но расточительно: слово «кот» не требует тех же нейронов, что слово «интеграл». MoE решает эту проблему элегантно — модель становится огромной на бумаге, но «думает» компактно.

«MoE позволяет строить модели с сотнями миллиардов параметров, активируя при этом лишь десятки — как энциклопедия, в которой открывается только нужная статья.»

Как это работает

Внутри трансформерной архитектуры обычные слои FFN (feed-forward network) заменяются на MoE-слои. Каждый такой слой устроен так:

Эксперты — несколько независимых нейронных подсетей (от 8 до 256 и более).
Маршрутизатор (router/gating network) — небольшая сеть, которая для каждого токена вычисляет вероятности и выбирает top-k экспертов.
Агрегация — результаты выбранных экспертов взвешенно суммируются и передаются дальше.

Чаще всего используется top-2 маршрутизация: каждый токен обрабатывают ровно два эксперта. Например, в Mixtral 8x7B работают 2 из 8 доступных экспертов — это даёт 47B активных параметров при общем объёме 47B (из-за удвоения FFN блоков).

Характеристики ведущих MoE-моделей (2026)

Модель	Всего параметров	Активные параметры	Кол-во экспертов	Маршрутизация
DeepSeek-R1	671B	37B	256	top-8
Qwen3-235B-A22B	235B	22B	128	top-8
Mixtral 8x7B	~47B	~13B	8	top-2
Llama 4 Scout	~109B	~17B	16	top-1
Gemini 1.5 Pro	не раскрыто	не раскрыто	не раскрыто	—

По данным независимого бенчмарка Artificial Analysis, к началу 2026 года все 10 ведущих открытых моделей используют MoE-архитектуру.

Преимущества и ограничения

Плюсы:

Генерация токенов значительно быстрее, чем у плотных моделей сопоставимого «полного» размера
Существенно меньше вычислений (FLOP) на инференс — ниже стоимость API
Возможность обучать модели с меньшим бюджетом на то же качество

Минусы:

Высокие требования к RAM/VRAM: все параметры всех экспертов должны быть загружены, даже если активна лишь малая часть
Сложнее дообучать (fine-tuning): модели склонны к переобучению на небольших датасетах
Балансировка нагрузки между экспертами требует отдельных механизмов — без них некоторые эксперты перегружаются, остальные простаивают

Примеры применения

DeepSeek-R1 (671B/37B) достиг результата 79,8% на AIME 2025, конкурируя с проприетарными моделями при значительно меньших затратах на вычисления
Mixtral 8x7B от Mistral AI стал первой широко доступной открытой MoE-моделью, задав стандарт эффективности для open-source сообщества
Qwen3-235B-A22B обучен на 36 триллионах токенов с 128 экспертами, демонстрируя что MoE масштабируется и на обучении, и на инференсе

См. также: трансформер, LLM (большая языковая модель), инференс, квантизация, fine-tuning

Зачем это нужно

Как это работает

Характеристики ведущих MoE-моделей (2026)

Преимущества и ограничения

Примеры применения

Источники

Похожие статьи

Mixture of Experts (MoE)

Mixture of Experts — MoE (Смесь экспертов)

Mixture of Experts — MoE (Смесь экспертов)

12-Factor Agents: как строить надёжные LLM-агенты

Why We Think: почему ИИ нужно «думать» дольше