<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Transformer on AI-Uchi — Всё об искусственном интеллекте</title><link>/tags/transformer/</link><description>Recent content in Transformer on AI-Uchi — Всё об искусственном интеллекте</description><generator>Hugo</generator><language>ru</language><lastBuildDate>Sat, 14 Mar 2026 18:00:00 +0300</lastBuildDate><atom:link href="/tags/transformer/index.xml" rel="self" type="application/rss+xml"/><item><title>Attention is All You Need: статья, изменившая AI</title><link>/articles/attention-is-all-you-need-statia-izmenivshaia-ai/</link><pubDate>Sat, 14 Mar 2026 18:00:00 +0300</pubDate><guid>/articles/attention-is-all-you-need-statia-izmenivshaia-ai/</guid><description>&lt;p&gt;12 июня 2017 года восемь исследователей из Google Brain и Google Research выложили на arXiv препринт с провокационным названием — «Attention Is All You Need». Статья на 15 страниц предлагала полностью отказаться от рекуррентных и свёрточных сетей в пользу нового подхода — механизма внимания. Никто из авторов не мог предположить, что именно эта работа станет фундаментом для ChatGPT, BERT, Claude, Gemini и всей индустрии генеративного AI.&lt;/p&gt;
&lt;p&gt;К 2025 году статья набрала более 173 000 цитирований — это один из десяти самых цитируемых научных текстов XXI века. Разберёмся, что именно предложили авторы, почему это сработало и как одна архитектура перевернула всю отрасль.&lt;/p&gt;</description></item><item><title>Mixture of Experts — MoE (Смесь экспертов)</title><link>/glossary/mixture-of-experts-moe-smes-ekspertov/</link><pubDate>Sat, 07 Mar 2026 12:00:00 +0300</pubDate><guid>/glossary/mixture-of-experts-moe-smes-ekspertov/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;Mixture of Experts (MoE)&lt;/strong&gt; — архитектура нейронной сети, в которой вместо одной большой сети используется набор специализированных «экспертов». Для каждого входного токена специальный маршрутизатор (router) выбирает лишь несколько экспертов из всего набора — остальные в обработке не участвуют.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="зачем-это-нужно"&gt;Зачем это нужно&lt;/h2&gt;
&lt;p&gt;Классическая (плотная) языковая модель обрабатывает каждый токен через все свои параметры целиком. Это честно, но расточительно: слово «кот» не требует тех же нейронов, что слово «интеграл». MoE решает эту проблему элегантно — модель становится огромной на бумаге, но «думает» компактно.&lt;/p&gt;</description></item></channel></rss>