Transformer on AI-Uchi — Всё об искусственном интеллекте

Attention is All You Need: статья, изменившая AI

Sat, 14 Mar 2026 18:00:00 +0300

12 июня 2017 года восемь исследователей из Google Brain и Google Research выложили на arXiv препринт с провокационным названием — «Attention Is All You Need». Статья на 15 страниц предлагала полностью отказаться от рекуррентных и свёрточных сетей в пользу нового подхода — механизма внимания. Никто из авторов не мог предположить, что именно эта работа станет фундаментом для ChatGPT, BERT, Claude, Gemini и всей индустрии генеративного AI.

К 2025 году статья набрала более 173 000 цитирований — это один из десяти самых цитируемых научных текстов XXI века. Разберёмся, что именно предложили авторы, почему это сработало и как одна архитектура перевернула всю отрасль.

Mixture of Experts — MoE (Смесь экспертов)

Sat, 07 Mar 2026 12:00:00 +0300

ℹ Info

Mixture of Experts (MoE) — архитектура нейронной сети, в которой вместо одной большой сети используется набор специализированных «экспертов». Для каждого входного токена специальный маршрутизатор (router) выбирает лишь несколько экспертов из всего набора — остальные в обработке не участвуют.

Зачем это нужно

Классическая (плотная) языковая модель обрабатывает каждый токен через все свои параметры целиком. Это честно, но расточительно: слово «кот» не требует тех же нейронов, что слово «интеграл». MoE решает эту проблему элегантно — модель становится огромной на бумаге, но «думает» компактно.