<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Inference on AI-Uchi — Всё об искусственном интеллекте</title><link>/tags/inference/</link><description>Recent content in Inference on AI-Uchi — Всё об искусственном интеллекте</description><generator>Hugo</generator><language>ru</language><lastBuildDate>Thu, 19 Feb 2026 15:00:00 +0300</lastBuildDate><atom:link href="/tags/inference/index.xml" rel="self" type="application/rss+xml"/><item><title>Mixture of Experts (MoE)</title><link>/glossary/mixture-of-experts-moe/</link><pubDate>Thu, 19 Feb 2026 15:00:00 +0300</pubDate><guid>/glossary/mixture-of-experts-moe/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;Mixture of Experts (MoE)&lt;/strong&gt; — архитектура языковой модели, в которой вместо одного монолитного блока используется набор специализированных подсетей («экспертов»). При обработке каждого токена активируется лишь небольшая часть экспертов, что снижает вычислительную нагрузку без потери качества.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="простыми-словами"&gt;Простыми словами&lt;/h2&gt;
&lt;p&gt;Представьте большую редакцию с сотней специалистов: юристы, экономисты, переводчики, программисты. Когда поступает задача, её не решают все сразу — её направляют к двум-трём подходящим экспертам. Остальные в это время свободны.&lt;/p&gt;
&lt;p&gt;MoE работает точно так же. Модель содержит десятки или сотни «экспертных» слоёв, но на каждый токен активируются только несколько из них. Специальный компонент — &lt;strong&gt;роутер&lt;/strong&gt; (gating network) — решает, кому передать слово.&lt;/p&gt;</description></item></channel></rss>