<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>LLM on AI-Uchi — Всё об искусственном интеллекте</title><link>/tags/llm/</link><description>Recent content in LLM on AI-Uchi — Всё об искусственном интеллекте</description><generator>Hugo</generator><language>ru</language><lastBuildDate>Wed, 15 Apr 2026 16:31:29 +0300</lastBuildDate><atom:link href="/tags/llm/index.xml" rel="self" type="application/rss+xml"/><item><title>Open WebUI: мощная self-hosted платформа для локального AI</title><link>/news/open-webui-self-hosted-ai-platforma/</link><pubDate>Wed, 15 Apr 2026 16:31:29 +0300</pubDate><guid>/news/open-webui-self-hosted-ai-platforma/</guid><description>&lt;p&gt;Open WebUI уверенно занял место главного open-source интерфейса для локального запуска LLM. Платформа набрала более 124 тысяч звёзд на GitHub и преодолела отметку в 282 миллиона загрузок, превратившись из hobbyist-проекта в полноценное корпоративное решение. Open WebUI — расширяемая, функционально насыщенная self-hosted платформа, спроектированная для работы полностью офлайн: она поддерживает различные LLM-раннеры, включая Ollama и OpenAI-совместимые API, а встроенный inference engine обеспечивает RAG из коробки.&lt;/p&gt;
&lt;h2 id="что-умеет-open-webui"&gt;Что умеет Open WebUI&lt;/h2&gt;
&lt;p&gt;Open WebUI заменяет целый набор разрозненных AI-инструментов — ChatGPT для текстов, отдельное приложение для генерации изображений, другое для поиска по документам. Всё это собрано в одном месте: переписка, база знаний, инструменты и модели.&lt;/p&gt;</description></item><item><title>CowAgent 2.0: суперагент для WeChat и не только</title><link>/news/cowagent-superagent-wechat-llm/</link><pubDate>Wed, 15 Apr 2026 14:48:54 +0300</pubDate><guid>/news/cowagent-superagent-wechat-llm/</guid><description>&lt;p&gt;Проект &lt;strong&gt;chatgpt-on-wechat&lt;/strong&gt;, набравший сотни тысяч звёзд на GitHub, 13 апреля 2026 года официально сменил название на &lt;strong&gt;CowAgent&lt;/strong&gt;. 14 апреля вышла версия 2.0.6 с системой знаний (knowledge base), модулем «сновидческой памяти» (dream distillation), интеллектуальным сжатием контекста и мультисессионной Web-консолью. Это уже не чат-бот — это полноценный автономный агент, способный планировать задачи, управлять файлами и работать 24/7 на вашем сервере.&lt;/p&gt;
&lt;h2 id="что-умеет-cowagent"&gt;Что умеет CowAgent&lt;/h2&gt;
&lt;p&gt;CowAgent 2.0 совершил переход от чат-бота к суперагенту: теперь он умеет активно думать, планировать задачи, обладает долгосрочной памятью и может управлять компьютером и внешними ресурсами.&lt;/p&gt;</description></item><item><title>Основы AI: как работает искусственный интеллект</title><link>/translations/osnovy-ai-kak-rabotaet-iskusstvennyj-intellekt/</link><pubDate>Tue, 14 Apr 2026 17:00:00 +0300</pubDate><guid>/translations/osnovy-ai-kak-rabotaet-iskusstvennyj-intellekt/</guid><description>&lt;h1 id="основы-ai-как-работает-искусственный-интеллект"&gt;Основы AI: как работает искусственный интеллект&lt;/h1&gt;
&lt;p&gt;Слово «искусственный интеллект» сегодня звучит отовсюду — из новостей, от коллег, в рекламе. Но что за ним стоит на самом деле? Как машина умудряется отвечать на вопросы, писать тексты и решать задачи? В этой статье разберём основы без лишнего жаргона — так, чтобы было понятно с нуля.&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="что-такое-искусственный-интеллект"&gt;Что такое искусственный интеллект?&lt;/h2&gt;
&lt;p&gt;AI (Artificial Intelligence, искусственный интеллект) — это способность компьютерных систем выполнять задачи, которые традиционно требовали человеческого мышления: понимать язык, распознавать образы, принимать решения, учиться на примерах.&lt;/p&gt;</description></item><item><title>Claude Sonnet 4.6: новый уровень AI для работы и кода</title><link>/articles/claude-sonnet-4-6-frontier-performance/</link><pubDate>Mon, 13 Apr 2026 13:00:00 +0300</pubDate><guid>/articles/claude-sonnet-4-6-frontier-performance/</guid><description>&lt;p&gt;Anthropic выпустила Claude Sonnet 4.6 — и это не очередное косметическое обновление. Модель заявлена как «frontier performance at scale», то есть производительность переднего края при промышленных нагрузках. Разберём, что это означает на практике: для разработчиков, для тех, кто строит агентные системы, и для профессионалов, которым нужен надёжный AI-помощник в ежедневной работе.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;Frontier — это не маркетинг. Это конкретная точка на бенчмарках, где модель начинает конкурировать с лучшими в классе. Sonnet 4.6 претендует именно на эту точку.&lt;/p&gt;</description></item><item><title>Контекстное окно (Context Window)</title><link>/glossary/context-window/</link><pubDate>Mon, 13 Apr 2026 09:00:00 +0300</pubDate><guid>/glossary/context-window/</guid><description>&lt;h1 id="контекстное-окно-context-window"&gt;Контекстное окно (Context Window)&lt;/h1&gt;
&lt;h2 id="определение-простыми-словами"&gt;Определение простыми словами&lt;/h2&gt;
&lt;blockquote&gt;
&lt;p&gt;Контекстное окно — это «рабочая память» языковой модели: всё, что она может «видеть» и учитывать в один момент времени. Чем больше окно — тем больше текста модель держит в голове одновременно.&lt;/p&gt;
&lt;/blockquote&gt;
&lt;p&gt;Представьте, что вы разговариваете с очень умным консультантом, но у него есть одно ограничение: он помнит только последние N страниц вашего разговора. Всё, что было до — для него как будто не существует. Именно так работает контекстное окно.&lt;/p&gt;</description></item><item><title>Разработчик выпустил open-source систему анализа акций на базе ИИ</title><link>/news/open-source-ai-stock-analysis-system/</link><pubDate>Sun, 12 Apr 2026 16:59:31 +0300</pubDate><guid>/news/open-source-ai-stock-analysis-system/</guid><description>&lt;p&gt;Разработчик ZhuLinsen опубликовал на GitHub открытую систему анализа акций на базе больших языковых моделей (LLM). Проект daily_stock_analysis поддерживает анализ китайских A-акций, гонконгских H-акций и американских рынков с автоматической отправкой отчётов в мессенджеры и email. Особенность решения — возможность бесплатного запуска через GitHub Actions без собственного сервера.&lt;/p&gt;



&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Ключевые возможности&lt;/div&gt;
 &lt;div class="callout-content"&gt;Система генерирует ежедневный &amp;ldquo;dashboard решений&amp;rdquo; с конкретными точками входа/выхода, техническим анализом и новостной аналитикой для выбранных акций&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="архитектура-и-функционал"&gt;Архитектура и функционал&lt;/h2&gt;
&lt;p&gt;Система построена по модульному принципу и интегрирует множество источников данных:&lt;/p&gt;</description></item><item><title>RAG на практике: поиск по документам с LangChain и pgvector</title><link>/guides/rag-na-praktike-langchain-pgvector-poiskovaia-sistema/</link><pubDate>Fri, 03 Apr 2026 18:00:00 +0300</pubDate><guid>/guides/rag-na-praktike-langchain-pgvector-poiskovaia-sistema/</guid><description>&lt;p&gt;Представьте: у вас 10 000 внутренних документов компании — регламенты, договоры, техническая документация. Сотрудники тратят часы, пытаясь найти нужный пункт. Поиск по ключевым словам не работает — люди спрашивают «как оформить командировку», а документ называется «Положение о служебных поездках».&lt;/p&gt;
&lt;p&gt;RAG (Retrieval-Augmented Generation) решает именно эту проблему. Система понимает смысл вопроса, находит релевантные фрагменты из базы знаний и генерирует точный ответ с указанием источника. В этом руководстве мы построим такую систему с нуля — с реальным кодом, PostgreSQL, pgvector и LangChain.&lt;/p&gt;</description></item><item><title>Промпт-инжиниринг: полное руководство с примерами</title><link>/guides/prompt-inzhiniring-polnoe-rukovodstvo-s-primerami/</link><pubDate>Fri, 03 Apr 2026 12:00:00 +0300</pubDate><guid>/guides/prompt-inzhiniring-polnoe-rukovodstvo-s-primerami/</guid><description>&lt;p&gt;Один и тот же запрос к языковой модели может дать бесполезную отписку — или развёрнутый, точный, применимый на практике результат. Разница — в промпте. Исследования показывают, что структурированные промпты дают до 10 раз более полезные ответы по сравнению с размытыми однострочными инструкциями. Промпт-инжиниринг — это не «магия формулировок», а инженерная дисциплина со своими техниками, паттернами и измеримыми результатами.&lt;/p&gt;
&lt;p&gt;В этом руководстве — разбор техник от базовых до продвинутых, с конкретными примерами для Claude, GPT-4o и Gemini.&lt;/p&gt;</description></item><item><title>Hermes Agent — AI-агент с самообучением от Nous Research</title><link>/news/hermes-agent-ai-agent-nous-research/</link><pubDate>Mon, 30 Mar 2026 18:00:00 +0300</pubDate><guid>/news/hermes-agent-ai-agent-nous-research/</guid><description>&lt;p&gt;Nous Research, стартап из Остина с $70M финансирования, выпустил Hermes Agent — open-source AI-агент, который учится на собственном опыте и выстраивает модель пользователя между сессиями. 8 апреля вышла версия v0.8.0 с 209 мёрдж-реквестами и 82 закрытыми issue.&lt;/p&gt;
&lt;h2 id="что-такое-hermes-agent"&gt;Что такое Hermes Agent&lt;/h2&gt;
&lt;p&gt;Главная идея — &lt;strong&gt;замкнутый цикл обучения&lt;/strong&gt; (closed learning loop). Агент не просто выполняет команды: он создаёт навыки (skills) из сложных задач, улучшает их при повторном использовании, сохраняет знания в постоянную память и строит психологический профиль пользователя через систему Honcho.&lt;/p&gt;</description></item><item><title>Claude API для Python: от первого запроса до продакшна</title><link>/guides/claude-api-python-ot-pervogo-zaprosa-do-prodakshna/</link><pubDate>Mon, 30 Mar 2026 15:00:00 +0300</pubDate><guid>/guides/claude-api-python-ot-pervogo-zaprosa-do-prodakshna/</guid><description>&lt;p&gt;Представьте: вы открываете терминал, вводите двадцать строк кода — и через несколько секунд получаете связный, умный ответ от одной из лучших языковых моделей в мире. Именно так выглядит знакомство с Claude API. Но между «hello world» и настоящим продакшн-сервисом — пропасть из ошибок 429, протёкших API-ключей и счетов, которые оказались неожиданно высокими.&lt;/p&gt;
&lt;p&gt;В этом гайде мы пройдём весь путь: от установки пакета до оптимизации затрат в 10 раз. Без воды — только код и проверенные практики.&lt;/p&gt;</description></item><item><title>CLAUDE.md по советам Карпати: четыре правила для AI-кодинга</title><link>/news/claude-md-po-sovetam-karpati-pravila-ai-kodinga/</link><pubDate>Sun, 29 Mar 2026 12:00:00 +0300</pubDate><guid>/news/claude-md-po-sovetam-karpati-pravila-ai-kodinga/</guid><description>&lt;p&gt;Разработчик Forrest Chang выпустил открытый плагин для Claude Code, основанный на наблюдениях Андрея Карпати о типичных провалах LLM при написании кода. Один файл &lt;code&gt;CLAUDE.md&lt;/code&gt; с четырьмя принципами заставляет AI-ассистента думать перед действием, писать проще и не трогать чужой код.&lt;/p&gt;
&lt;h2 id="что-не-так-с-ai-кодингом"&gt;Что не так с AI-кодингом&lt;/h2&gt;
&lt;p&gt;Карпати — бывший директор AI в Tesla и один из основателей OpenAI — в своём обзоре «2025 LLM Year in Review» сформулировал проблемы, которые знакомы каждому, кто работает с AI-ассистентами для кода:&lt;/p&gt;</description></item><item><title>Обзор Claude 4: возможности, цены, сравнение с конкурентами</title><link>/tools/obzor-claude-4-vozmozhnosti-tseny-sravnenie/</link><pubDate>Fri, 27 Mar 2026 15:00:00 +0300</pubDate><guid>/tools/obzor-claude-4-vozmozhnosti-tseny-sravnenie/</guid><description>&lt;p&gt;Семейство моделей Claude от Anthropic стабильно входит в топ-3 самых мощных LLM на рынке. В феврале 2026 года вышли &lt;strong&gt;Claude Opus 4.6&lt;/strong&gt; и &lt;strong&gt;Claude Sonnet 4.6&lt;/strong&gt; — новейшие модели четвёртого поколения. Разбираемся, что они умеют, сколько стоят и как выглядят на фоне GPT-5.4 и Gemini 3.1 Pro.&lt;/p&gt;
&lt;h2 id="что-это-и-для-кого"&gt;Что это и для кого&lt;/h2&gt;
&lt;p&gt;Claude — это линейка больших языковых моделей от компании Anthropic, доступная через веб-интерфейс (claude.ai), десктопные приложения, мобильные приложения и API. Модели построены с упором на &lt;strong&gt;безопасность, точность и длинный контекст&lt;/strong&gt;.&lt;/p&gt;</description></item><item><title>Нейросети для NLP: от RNN к трансформерам</title><link>/articles/neiroseti-dlya-nlp-ot-rnn-k-transformeram/</link><pubDate>Wed, 25 Mar 2026 15:00:00 +0300</pubDate><guid>/articles/neiroseti-dlya-nlp-ot-rnn-k-transformeram/</guid><description>&lt;p&gt;В 2017 году восемь исследователей из Google опубликовали статью с дерзким названием «Attention Is All You Need». К 2026-му она набрала свыше 150 000 цитирований и перевернула всю область обработки естественного языка. Но трансформер не появился из ниоткуда — ему предшествовали десятилетия экспериментов с рекуррентными сетями, которые учились читать текст слово за словом.&lt;/p&gt;
&lt;p&gt;Эта статья — путь от первых RNN до современных архитектур, на которых построены GPT-4, Claude и Gemini. Без мифов, с техническими деталями и честным сравнением подходов.&lt;/p&gt;</description></item><item><title>Галлюцинация (Hallucination)</title><link>/glossary/galliutsinatsiia-hallucination/</link><pubDate>Mon, 23 Mar 2026 18:00:00 +0300</pubDate><guid>/glossary/galliutsinatsiia-hallucination/</guid><description>&lt;p&gt;&lt;strong&gt;Галлюцинация&lt;/strong&gt; (англ. &lt;em&gt;hallucination&lt;/em&gt;) — это явление, при котором AI-модель генерирует ответ, содержащий ложную или вымышленную информацию, но подаёт её уверенно и правдоподобно. Модель не «врёт» намеренно — она просто не отличает реальные факты от статистически вероятных последовательностей слов.&lt;/p&gt;



&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;Определение.&lt;/strong&gt; AI-галлюцинация — ответ модели, который звучит убедительно, но содержит вымышленные факты, несуществующие источники или искажённые данные. Термин заимствован из психиатрии по аналогии: модель «видит» то, чего нет.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="почему-модели-галлюцинируют"&gt;Почему модели галлюцинируют&lt;/h2&gt;
&lt;p&gt;Большие языковые модели (LLM) — это предсказатели следующего слова. Они обучены находить статистические закономерности в текстах, а не хранить базу фактов. Когда модель сталкивается с пробелом в знаниях или неоднозначным запросом, она заполняет пустоту наиболее правдоподобной выдумкой — вместо того чтобы признать незнание.&lt;/p&gt;</description></item><item><title>Контекстное окно LLM: почему размер имеет значение</title><link>/articles/kontekstnoe-okno-llm-pochemu-razmer-imeet-znachenie/</link><pubDate>Mon, 23 Mar 2026 18:00:00 +0300</pubDate><guid>/articles/kontekstnoe-okno-llm-pochemu-razmer-imeet-znachenie/</guid><description>&lt;p&gt;Представьте, что вы работаете с коллегой, у которого отличная голова, но короткая память. Вы объясняете задачу, он кивает — и через пять минут переспрашивает детали, которые вы только что озвучили. Именно так работают языковые модели без достаточно большого контекстного окна.&lt;/p&gt;
&lt;p&gt;Контекстное окно — один из ключевых параметров любой LLM. От него зависит, сможет ли модель удержать весь ваш документ в голове, не «забыть» начало разговора и выдать связный ответ. В 2026 году конкуренция вокруг этого параметра вышла на новый уровень: модели наперебой анонсируют миллионы токенов. Но что за этим стоит на практике — разберём в этой статье.&lt;/p&gt;</description></item><item><title>Как работают трансформеры: архитектура, изменившая AI</title><link>/articles/kak-rabotaiut-transformery-arkhitektura-izmenivshaia-ai/</link><pubDate>Thu, 19 Mar 2026 09:00:00 +0300</pubDate><guid>/articles/kak-rabotaiut-transformery-arkhitektura-izmenivshaia-ai/</guid><description>&lt;p&gt;В 2017 году восемь исследователей из Google опубликовали статью с провокационным названием «Attention Is All You Need» — отсылку к песне The Beatles «All You Need Is Love». Статья представила архитектуру трансформера — нейросеть на 100 миллионов параметров, которая обходилась без рекуррентных и свёрточных слоёв. Тогда это казалось смелым экспериментом. Сегодня каждая крупная языковая модель — GPT-5, Claude Opus, Gemini 3, Llama 4 — построена на этой архитектуре. Разберёмся, как она устроена и почему оказалась настолько мощной.&lt;/p&gt;</description></item><item><title>Unsloth Studio: веб-интерфейс для обучения LLM локально</title><link>/news/unsloth-studio-web-ui-obuchenie-llm-lokalno/</link><pubDate>Wed, 18 Mar 2026 18:00:00 +0300</pubDate><guid>/news/unsloth-studio-web-ui-obuchenie-llm-lokalno/</guid><description>&lt;p&gt;Проект Unsloth, набравший более 60 тысяч звёзд на GitHub, выпустил &lt;strong&gt;Unsloth Studio&lt;/strong&gt; — open-source веб-интерфейс для локального обучения и запуска AI-моделей. Инструмент обещает до 2x ускорение тренировки при сокращении потребления видеопамяти на 70%, без потери точности. Studio работает на Windows, Linux и macOS и поддерживает более 500 моделей — от Qwen3.5 и Gemma 4 до DeepSeek и gpt-oss от OpenAI.&lt;/p&gt;
&lt;h2 id="что-умеет-unsloth-studio"&gt;Что умеет Unsloth Studio&lt;/h2&gt;
&lt;p&gt;Studio — это единый интерфейс, который объединяет инференс (запуск моделей) и тренировку в одном окне браузера. Раньше Unsloth был доступен только как Python-библиотека для продвинутых пользователей. Теперь порог входа снизился: настроить fine-tuning (дообучение) можно через визуальные формы, без написания кода.&lt;/p&gt;</description></item><item><title>Что такое AI-агенты и как они меняют автоматизацию</title><link>/articles/chto-takoe-ai-agenty-i-kak-oni-meniaiut-avtomatizatsiiu/</link><pubDate>Wed, 18 Mar 2026 15:00:00 +0300</pubDate><guid>/articles/chto-takoe-ai-agenty-i-kak-oni-meniaiut-avtomatizatsiiu/</guid><description>&lt;p&gt;Вы просите ChatGPT написать письмо — он пишет. Вы просите AI-агента разобраться с вашей почтой — он сам читает входящие, определяет приоритеты, отвечает на рутинные запросы и эскалирует важные. Разница — как между калькулятором и бухгалтером: один считает, когда нажмёшь кнопку, другой сам знает, что и когда считать.&lt;/p&gt;
&lt;p&gt;2026 год стал переломным для AI-агентов. По данным отрасли, 48% предприятий уже запустили агентные системы в продакшн, а к концу года 80% корпоративных приложений будут содержать встроенных агентов. Это уже не демо из лаборатории — это рабочий инструмент. Разберёмся, как всё устроено.&lt;/p&gt;</description></item><item><title>Контекстное окно 1 миллион токенов: что меняется на практике</title><link>/articles/kontekstnoe-okno-million-tokenov-chto-menyaetsya/</link><pubDate>Wed, 18 Mar 2026 09:00:00 +0300</pubDate><guid>/articles/kontekstnoe-okno-million-tokenov-chto-menyaetsya/</guid><description>&lt;p&gt;Год назад контекстное окно в 128 тысяч токенов казалось колоссальным. Сегодня это уже базовый минимум: Gemini 3 Pro работает с миллионом токенов по умолчанию, Claude Sonnet 4.6 и Opus 4.6 получили миллионный контекст в марте 2026-го, GPT-5.4 от OpenAI вышел с окном в 1 050 000 токенов. Гонка за длину контекста превратилась в маркетинговое соревнование.&lt;/p&gt;
&lt;p&gt;Но что за этими цифрами стоит на практике? Миллион токенов — это реально полезно или красивая цифра в пресс-релизе? Давайте разберёмся без рекламы.&lt;/p&gt;</description></item><item><title>Reasoning-модели в 2026: чем o3, Gemini и Claude Opus отличаются</title><link>/articles/reasoning-modeli-2026-o3-gemini-claude-opus-vs-llm/</link><pubDate>Mon, 16 Mar 2026 18:00:00 +0300</pubDate><guid>/articles/reasoning-modeli-2026-o3-gemini-claude-opus-vs-llm/</guid><description>&lt;p&gt;Ещё три года назад казалось, что главный прорыв в AI — это просто «больше параметров». GPT-4, Claude 2, Gemini Pro — они становились умнее с каждой версией, но принципиально работали одинаково: получил токен, выдал следующий, быстро и без раздумий.&lt;/p&gt;
&lt;p&gt;Потом появились o1, DeepSeek R1, и стало ясно: что-то изменилось фундаментально. В 2026 году семейство reasoning-моделей — OpenAI o3, Gemini 3.1 Pro, Claude Opus 4.6 — это уже не просто «умные чат-боты». Это модели, которые &lt;em&gt;думают перед ответом&lt;/em&gt;, и разница ощущается даже на практических задачах.&lt;/p&gt;</description></item><item><title>Галлюцинация (Hallucination)</title><link>/glossary/galliutsinatsiia-hallucination/</link><pubDate>Sun, 15 Mar 2026 12:00:00 +0300</pubDate><guid>/glossary/galliutsinatsiia-hallucination/</guid><description>&lt;h2 id="определение"&gt;Определение&lt;/h2&gt;



&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;Галлюцинация ИИ&lt;/strong&gt; — это ответ модели, который содержит ложную или вымышленную информацию, но подаётся уверенно и убедительно, как установленный факт. Модель не «врёт» намеренно — она предсказывает наиболее вероятное продолжение текста, и иногда это продолжение оказывается выдумкой.&lt;/div&gt;
&lt;/div&gt;

&lt;p&gt;Языковые модели (LLM) работают как продвинутые автодополнители: они генерируют текст слово за словом, выбирая статистически правдоподобные варианты. У них нет встроенного понимания «истинности» — только паттерны из обучающих данных. Когда паттернов недостаточно или вопрос выходит за рамки обучения, модель заполняет пробелы правдоподобной, но ложной информацией.&lt;/p&gt;</description></item><item><title>Flex и Priority в Gemini API: экономия и надёжность</title><link>/translations/flex-i-priority-v-gemini-api-ekonomiia-i-nadezhnost/</link><pubDate>Sat, 14 Mar 2026 09:00:00 +0300</pubDate><guid>/translations/flex-i-priority-v-gemini-api-ekonomiia-i-nadezhnost/</guid><description>&lt;p&gt;Когда ваше AI-приложение разрастается от простого чат-бота до сложной мультиагентной системы, появляется неизбежная проблема: одни задачи требуют мгновенного ответа, а другие спокойно могут подождать. До сих пор Gemini API предлагал два полюса — стандартный синхронный вызов и асинхронный Batch API. 2 апреля 2026 года Google заполнил пробел между ними, выпустив два новых уровня обслуживания: &lt;strong&gt;Flex&lt;/strong&gt; и &lt;strong&gt;Priority&lt;/strong&gt;.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;Flex и Priority — это не замена существующих тарифов, а дополнительные уровни в рамках единого синхронного интерфейса. Один параметр &lt;code&gt;service_tier&lt;/code&gt; в запросе — и вы выбираете баланс между ценой и надёжностью.&lt;/p&gt;</description></item><item><title>Mixture of Experts — MoE (Смесь экспертов)</title><link>/glossary/mixture-of-experts-moe-smes-ekspertov/</link><pubDate>Sat, 07 Mar 2026 12:00:00 +0300</pubDate><guid>/glossary/mixture-of-experts-moe-smes-ekspertov/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;Mixture of Experts (MoE)&lt;/strong&gt; — архитектура нейронной сети, в которой вместо одной большой сети используется набор специализированных «экспертов». Для каждого входного токена специальный маршрутизатор (router) выбирает лишь несколько экспертов из всего набора — остальные в обработке не участвуют.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="зачем-это-нужно"&gt;Зачем это нужно&lt;/h2&gt;
&lt;p&gt;Классическая (плотная) языковая модель обрабатывает каждый токен через все свои параметры целиком. Это честно, но расточительно: слово «кот» не требует тех же нейронов, что слово «интеграл». MoE решает эту проблему элегантно — модель становится огромной на бумаге, но «думает» компактно.&lt;/p&gt;</description></item><item><title>RAG — Retrieval-Augmented Generation (генерация с дополненным извлечением)</title><link>/glossary/rag-retrieval-augmented-generation/</link><pubDate>Sat, 07 Mar 2026 09:00:00 +0300</pubDate><guid>/glossary/rag-retrieval-augmented-generation/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;RAG (Retrieval-Augmented Generation)&lt;/strong&gt; — это метод, при котором языковая модель перед генерацией ответа сначала находит релевантную информацию во внешней базе знаний и использует её как контекст. Это позволяет давать точные, актуальные и проверяемые ответы без переобучения модели.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="зачем-нужен-rag"&gt;Зачем нужен RAG&lt;/h2&gt;
&lt;p&gt;Большие языковые модели (LLM) обучены на огромных массивах текста, но у них есть два фундаментальных ограничения: знания «заморожены» на дату обучения и они не имеют доступа к закрытым корпоративным данным. RAG решает обе проблемы — модель получает свежую и специфичную информацию прямо в момент запроса.&lt;/p&gt;</description></item><item><title>RAG — Retrieval-Augmented Generation (генерация с дополненным извлечением)</title><link>/glossary/rag-retrieval-augmented-generation/</link><pubDate>Fri, 06 Mar 2026 18:00:00 +0300</pubDate><guid>/glossary/rag-retrieval-augmented-generation/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;RAG (Retrieval-Augmented Generation)&lt;/strong&gt; — подход, при котором языковая модель перед генерацией ответа сначала ищет релевантную информацию во внешней базе знаний и использует найденное как контекст. Это делает ответы точнее, актуальнее и проверяемее.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="зачем-нужен-rag"&gt;Зачем нужен RAG&lt;/h2&gt;
&lt;p&gt;Большие языковые модели (LLM) обучаются на огромных корпусах текстов, но их знания «заморожены» на дату обучения. Они не знают о вчерашних событиях, внутренних документах вашей компании или специфичных данных вашей отрасли. Кроме того, LLM склонны к &lt;strong&gt;галлюцинациям&lt;/strong&gt; — уверенной генерации несуществующих фактов.&lt;/p&gt;</description></item><item><title>Голосовой AI-ассистент: Whisper + LLM + TTS на своём сервере</title><link>/guides/golosovoi-ai-assistent-whisper-llm-tts-lokalnyi-server/</link><pubDate>Wed, 04 Mar 2026 18:00:00 +0300</pubDate><guid>/guides/golosovoi-ai-assistent-whisper-llm-tts-lokalnyi-server/</guid><description>&lt;p&gt;Вы говорите вслух — ассистент отвечает голосом. Без подписки, без передачи данных в облако, без зависимости от серверов OpenAI или Google. Всё работает локально на вашем железе, со скоростью, которая ощущается как живой разговор.&lt;/p&gt;
&lt;p&gt;Это не фантастика 2027 года. Это реальный стек, который собирают разработчики прямо сейчас: &lt;strong&gt;faster-whisper&lt;/strong&gt; для распознавания речи, &lt;strong&gt;Ollama&lt;/strong&gt; для запуска LLM, &lt;strong&gt;Kokoro или Piper&lt;/strong&gt; для синтеза голоса. В этом гайде — архитектура, выбор компонентов, код и реальные цифры производительности.&lt;/p&gt;</description></item><item><title>RAG — генерация с дополненным извлечением (Retrieval-Augmented Generation)</title><link>/glossary/rag-retrieval-augmented-generation/</link><pubDate>Sun, 01 Mar 2026 15:00:00 +0300</pubDate><guid>/glossary/rag-retrieval-augmented-generation/</guid><description>&lt;h2 id="определение"&gt;Определение&lt;/h2&gt;



&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;RAG (Retrieval-Augmented Generation)&lt;/strong&gt; — это архитектурный паттерн, при котором языковая модель перед генерацией ответа сначала находит релевантные документы во внешней базе знаний и использует их как контекст. Проще говоря: модель не полагается только на свою «память», а подглядывает в шпаргалку с актуальными данными.&lt;/div&gt;
&lt;/div&gt;

&lt;p&gt;Термин ввели исследователи из Meta AI (Facebook) в 2020 году в статье «Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks», представленной на конференции NeurIPS 2020.&lt;/p&gt;
&lt;h2 id="как-это-работает"&gt;Как это работает&lt;/h2&gt;
&lt;p&gt;RAG-система работает в три шага:&lt;/p&gt;</description></item><item><title>Тонкая настройка открытых моделей: когда нужна и как делать</title><link>/guides/tonkaya-nastroyka-otkrytykh-modeley-kogda-i-kak/</link><pubDate>Sun, 01 Mar 2026 12:00:00 +0300</pubDate><guid>/guides/tonkaya-nastroyka-otkrytykh-modeley-kogda-i-kak/</guid><description>&lt;p&gt;Вы взяли Llama 3.1 или Qwen 2.5, запустили на своём сервере, поигрались с промптами — и всё равно модель отвечает не так, как надо. То тон не тот, то формат плавает, то в предметной области откровенно «плавает». Что делать?&lt;/p&gt;
&lt;p&gt;Большинство сразу тянется к fine-tuning — тонкой настройке. Но это не всегда правильный ответ. В 2026 году у разработчиков есть три основных инструмента адаптации LLM: промпт-инжиниринг, RAG и fine-tuning. И задача — понять, когда именно нужен последний, как его запустить с минимальными затратами и чего ждать на выходе.&lt;/p&gt;</description></item><item><title>AI-агенты для автоматизации бизнеса: реальные кейсы</title><link>/articles/ai-agenty-avtomatizatsiya-biznes-protsessov-keysy/</link><pubDate>Sat, 28 Feb 2026 09:00:00 +0300</pubDate><guid>/articles/ai-agenty-avtomatizatsiya-biznes-protsessov-keysy/</guid><description>&lt;p&gt;В 2025 году каждая вторая компания «экспериментировала с AI». В 2026-м задали другой вопрос: &lt;strong&gt;работает ли это в реальных условиях и сколько денег принесло?&lt;/strong&gt; По данным McKinsey, 62% компаний уже тестируют AI-агентов, и всё больше пилотов переходят в полноценное производство. Эта статья — не про теорию. Разберём конкретные кейсы, цифры и архитектурные решения, которые реально используются прямо сейчас.&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="что-такое-ai-агент-и-чем-он-отличается-от-обычного-чат-бота"&gt;Что такое AI-агент и чем он отличается от обычного чат-бота&lt;/h2&gt;
&lt;p&gt;Прежде чем разбирать кейсы, важно зафиксировать терминологию. Чат-бот отвечает на вопрос. AI-агент &lt;strong&gt;ставит цель, планирует шаги, вызывает инструменты и итеративно движется к результату&lt;/strong&gt; — без жёсткого сценария.&lt;/p&gt;</description></item><item><title>RAG — Retrieval-Augmented Generation (генерация с дополненным извлечением)</title><link>/glossary/rag-retrieval-augmented-generation/</link><pubDate>Sat, 28 Feb 2026 09:00:00 +0300</pubDate><guid>/glossary/rag-retrieval-augmented-generation/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;RAG (Retrieval-Augmented Generation)&lt;/strong&gt; — подход, при котором языковая модель сначала находит релевантные документы во внешней базе знаний и только потом генерирует ответ, опираясь на найденную информацию. Это позволяет модели «знать» то, чего не было в её обучающих данных.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="зачем-нужен-rag"&gt;Зачем нужен RAG&lt;/h2&gt;
&lt;p&gt;У любой LLM есть две фундаментальные проблемы: она &lt;strong&gt;не знает ваших данных&lt;/strong&gt; и может &lt;strong&gt;галлюцинировать&lt;/strong&gt; — уверенно выдавать несуществующие факты. Fine-tuning решает первую проблему лишь частично и стоит дорого. RAG предлагает элегантный выход: вместо того чтобы переучивать модель, мы подаём ей нужный контекст прямо в запросе.&lt;/p&gt;</description></item><item><title>Локальный AI-стек: Ollama + Open WebUI + RAG за один вечер</title><link>/guides/lokalnyy-ai-stek-ollama-open-webui-rag/</link><pubDate>Thu, 26 Feb 2026 18:00:00 +0300</pubDate><guid>/guides/lokalnyy-ai-stek-ollama-open-webui-rag/</guid><description>&lt;p&gt;Представьте: вы задаёте вопрос своему AI-ассистенту, загружаете корпоративный PDF — и он отвечает точно по документу. Без отправки данных в OpenAI. Без подписок. Без утечек. Всё крутится на вашем железе.&lt;/p&gt;
&lt;p&gt;Это не фантастика 2030 года — это реально собирается сегодня вечером. Ollama как движок для запуска LLM, Open WebUI как красивый интерфейс, RAG как механизм работы с вашими документами. Три компонента — один работающий стек. Поехали.&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="что-такое-этот-стек-и-зачем-он-вам-нужен"&gt;Что такое этот стек и зачем он вам нужен&lt;/h2&gt;
&lt;p&gt;Прежде чем лезть в терминал, разберёмся с архитектурой.&lt;/p&gt;</description></item><item><title>RAG — Retrieval-Augmented Generation (генерация с дополненным извлечением)</title><link>/glossary/rag-retrieval-augmented-generation/</link><pubDate>Thu, 26 Feb 2026 12:00:00 +0300</pubDate><guid>/glossary/rag-retrieval-augmented-generation/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;RAG (Retrieval-Augmented Generation)&lt;/strong&gt; — подход, при котором языковая модель перед генерацией ответа сначала находит релевантную информацию во внешних источниках данных и использует её как контекст. Это позволяет давать точные, актуальные и проверяемые ответы без переобучения самой модели.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="простыми-словами"&gt;Простыми словами&lt;/h2&gt;
&lt;p&gt;Представьте студента на экзамене. Обычная LLM — это студент, который отвечает только по памяти: что выучил, то и говорит, а если не помнит — может начать выдумывать. RAG — это тот же студент, но с открытым учебником: прежде чем ответить, он находит нужную страницу, читает и только потом формулирует ответ.&lt;/p&gt;</description></item><item><title>Как работает инференс: от запроса до ответа</title><link>/articles/kak-rabotaet-inferens-ot-zaprosa-do-otveta/</link><pubDate>Sun, 22 Feb 2026 15:00:00 +0300</pubDate><guid>/articles/kak-rabotaet-inferens-ot-zaprosa-do-otveta/</guid><description>&lt;p&gt;Вы вводите запрос в ChatGPT, Claude или Gemini — и через долю секунды на экране начинают появляться слова. За этой кажущейся простотой скрывается сложнейший конвейер: токенизация, матричные вычисления на миллиардах параметров, управление памятью GPU и десятки оптимизаций, отточенных годами исследований. Этот конвейер называется &lt;strong&gt;инференс&lt;/strong&gt; (inference) — процесс получения ответа от обученной модели.&lt;/p&gt;
&lt;p&gt;В этой статье разберём каждый этап пути от текстового запроса до сгенерированного ответа и объясним, какие инженерные решения позволяют получать ответы за сотни миллисекунд.&lt;/p&gt;</description></item><item><title>Автоматизация с n8n и AI: пошаговый гайд</title><link>/guides/avtomatizatsiia-s-n8n-i-ai-poshagovyi-gaid/</link><pubDate>Sat, 21 Feb 2026 12:00:00 +0300</pubDate><guid>/guides/avtomatizatsiia-s-n8n-i-ai-poshagovyi-gaid/</guid><description>&lt;p&gt;Представьте: клиент пишет в чат, AI анализирует его запрос, находит ответ в базе знаний, отправляет персонализированный ответ и создаёт задачу в CRM — всё без единой строки кода и без участия человека. Это не фантастика, а рабочий workflow в n8n, который можно собрать за час.&lt;/p&gt;
&lt;p&gt;n8n — open-source платформа для автоматизации, которая в 2025–2026 годах стала де-факто стандартом для построения AI-воркфлоу. В отличие от Zapier и Make, n8n даёт полный контроль над данными, поддерживает self-hosting и имеет глубокую нативную интеграцию с LLM через LangChain. В этом гайде — от установки до продакшн-ready AI-агента.&lt;/p&gt;</description></item><item><title>RAG — генерация с дополненным извлечением (Retrieval-Augmented Generation)</title><link>/glossary/rag-retrieval-augmented-generation/</link><pubDate>Fri, 20 Feb 2026 18:00:00 +0300</pubDate><guid>/glossary/rag-retrieval-augmented-generation/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;RAG (Retrieval-Augmented Generation)&lt;/strong&gt; — техника, при которой языковая модель сначала находит релевантные документы во внешней базе знаний и только потом генерирует ответ, опираясь на найденную информацию. Это позволяет модели давать точные, актуальные и проверяемые ответы — даже по данным, которых не было в её обучающей выборке.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="зачем-нужен-rag"&gt;Зачем нужен RAG&lt;/h2&gt;
&lt;p&gt;Большие языковые модели (LLM) обучаются на огромных массивах текста, но у них есть два системных ограничения:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;Знания устаревают&lt;/strong&gt; — модель ничего не знает о событиях после даты обучения.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Галлюцинации&lt;/strong&gt; — модель может уверенно генерировать правдоподобный, но полностью выдуманный ответ.&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;RAG решает обе проблемы: вместо того чтобы полагаться только на «память» модели, система подключает к ней внешний источник актуальных данных — корпоративную wiki, базу документов, API или векторную базу данных.&lt;/p&gt;</description></item><item><title>Mixture of Experts (MoE)</title><link>/glossary/mixture-of-experts-moe/</link><pubDate>Thu, 19 Feb 2026 15:00:00 +0300</pubDate><guid>/glossary/mixture-of-experts-moe/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;Mixture of Experts (MoE)&lt;/strong&gt; — архитектура языковой модели, в которой вместо одного монолитного блока используется набор специализированных подсетей («экспертов»). При обработке каждого токена активируется лишь небольшая часть экспертов, что снижает вычислительную нагрузку без потери качества.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="простыми-словами"&gt;Простыми словами&lt;/h2&gt;
&lt;p&gt;Представьте большую редакцию с сотней специалистов: юристы, экономисты, переводчики, программисты. Когда поступает задача, её не решают все сразу — её направляют к двум-трём подходящим экспертам. Остальные в это время свободны.&lt;/p&gt;
&lt;p&gt;MoE работает точно так же. Модель содержит десятки или сотни «экспертных» слоёв, но на каждый токен активируются только несколько из них. Специальный компонент — &lt;strong&gt;роутер&lt;/strong&gt; (gating network) — решает, кому передать слово.&lt;/p&gt;</description></item><item><title>Промпт-инжиниринг (Prompt Engineering)</title><link>/glossary/prompt-inzhiniring-prompt-engineering/</link><pubDate>Thu, 19 Feb 2026 12:00:00 +0300</pubDate><guid>/glossary/prompt-inzhiniring-prompt-engineering/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;Промпт-инжиниринг (Prompt Engineering)&lt;/strong&gt; — искусство и практика составления запросов (промптов) к языковым моделям таким образом, чтобы получать максимально точные, полезные и релевантные ответы. Это не программирование в привычном смысле, а скорее умение правильно формулировать задачу для ИИ.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="зачем-это-нужно"&gt;Зачем это нужно&lt;/h2&gt;
&lt;p&gt;Одна и та же языковая модель может дать блестящий или бесполезный ответ — всё зависит от того, как сформулирован запрос. Промпт-инжиниринг — это набор техник, которые помогают «раскрыть» возможности модели без изменения её весов или архитектуры.&lt;/p&gt;</description></item><item><title>RAG — генерация с дополненной выборкой (Retrieval-Augmented Generation)</title><link>/glossary/rag-retrieval-augmented-generation/</link><pubDate>Tue, 17 Feb 2026 15:00:00 +0300</pubDate><guid>/glossary/rag-retrieval-augmented-generation/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;RAG (Retrieval-Augmented Generation)&lt;/strong&gt; — это метод, при котором языковая модель сначала находит релевантные документы во внешней базе знаний, а затем генерирует ответ на их основе. Проще говоря: вместо того чтобы отвечать «по памяти», модель сначала «подсматривает в шпаргалку».&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="зачем-это-нужно"&gt;Зачем это нужно&lt;/h2&gt;
&lt;p&gt;Большие языковые модели (LLM) обучаются на огромных объёмах текста, но их знания заморожены на момент обучения. Они не знают о вчерашних событиях, не имеют доступа к вашим внутренним документам и иногда уверенно выдумывают факты — это называется «галлюцинации».&lt;/p&gt;</description></item><item><title>Mixture of Experts — MoE (Смесь экспертов)</title><link>/glossary/mixture-of-experts-moe-smes-ekspertov/</link><pubDate>Tue, 17 Feb 2026 12:00:00 +0300</pubDate><guid>/glossary/mixture-of-experts-moe-smes-ekspertov/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;Mixture of Experts (MoE)&lt;/strong&gt; — архитектура языковых моделей, в которой вместо одного большого блока вычислений используется набор специализированных «экспертных» подсетей. При обработке каждого токена активируется лишь небольшая часть экспертов — остальные «молчат». Модель остаётся огромной по числу параметров, но дешёвой в работе.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="что-такое-mixture-of-experts-простыми-словами"&gt;Что такое Mixture of Experts простыми словами&lt;/h2&gt;
&lt;p&gt;Представьте больницу, где работают узкие специалисты: терапевт, кардиолог, невролог. Когда к ним приходит пациент, его направляют к одному-двум нужным врачам, а не ко всем сразу. Это быстро, точно и экономично.&lt;/p&gt;</description></item><item><title>Fine-tuning LLM: когда нужно и как сделать</title><link>/guides/fine-tuning-llm-kogda-nuzhno-i-kak-sdelat/</link><pubDate>Mon, 16 Feb 2026 12:00:00 +0300</pubDate><guid>/guides/fine-tuning-llm-kogda-nuzhno-i-kak-sdelat/</guid><description>&lt;p&gt;Вы потратили неделю на промпт-инжиниринг, модель всё ещё путает формат ответа, а RAG не помогает — потому что проблема не в знаниях, а в поведении. Знакомая ситуация? Именно здесь на сцену выходит fine-tuning — дообучение языковой модели на ваших данных. Но это мощный и дорогой инструмент, и применять его нужно точно по назначению.&lt;/p&gt;
&lt;p&gt;В этом руководстве разберём: когда fine-tuning действительно нужен, какой метод выбрать, как подготовить данные и какие инструменты использовать в 2026 году.&lt;/p&gt;</description></item><item><title>MiniMind: обучить GPT с нуля за 2 часа и 40 центов</title><link>/news/minimind-obuchit-gpt-s-nulya-za-2-chasa/</link><pubDate>Mon, 16 Feb 2026 09:00:00 +0300</pubDate><guid>/news/minimind-obuchit-gpt-s-nulya-za-2-chasa/</guid><description>&lt;p&gt;Китайский разработчик Jingyao Gong выложил в открытый доступ проект MiniMind — полный pipeline для обучения языковой модели на 64 миллиона параметров с нуля. На одной видеокарте NVIDIA RTX 3090 весь процесс занимает около двух часов и обходится примерно в 3 юаня (~40 центов) при аренде GPU-сервера. Проект набрал более 41 000 звёзд на GitHub и стал одним из самых популярных учебных ресурсов по LLM.&lt;/p&gt;
&lt;h2 id="что-такое-minimind"&gt;Что такое MiniMind&lt;/h2&gt;
&lt;p&gt;MiniMind — это не очередная обёртка над чужой моделью. Это полная реализация языковой модели с нуля на чистом PyTorch, без зависимости от высокоуровневых фреймворков вроде &lt;code&gt;transformers&lt;/code&gt; или &lt;code&gt;trl&lt;/code&gt;. Размер модели — примерно 1/2700 от GPT-3.&lt;/p&gt;</description></item><item><title>Embedding и векторный поиск: основа AI-приложений</title><link>/articles/embedding-i-vektornyi-poisk-osnova-ai-prilozhenii/</link><pubDate>Sun, 15 Feb 2026 18:00:00 +0300</pubDate><guid>/articles/embedding-i-vektornyi-poisk-osnova-ai-prilozhenii/</guid><description>&lt;p&gt;Представьте: вы задаёте вопрос чат-боту, и он находит точный ответ среди миллионов документов за миллисекунды. Не по ключевым словам — а по &lt;strong&gt;смыслу&lt;/strong&gt;. Это не магия. Это embedding и векторный поиск — две технологии, без которых не работает ни один современный AI-продукт: от RAG-систем до рекомендательных сервисов.&lt;/p&gt;
&lt;p&gt;В этой статье разберём, как текст превращается в числа, почему косинусное расстояние важнее точного совпадения слов и какую векторную базу данных выбрать в 2026 году.&lt;/p&gt;</description></item><item><title>RAG — генерация с дополненным извлечением (Retrieval-Augmented Generation)</title><link>/glossary/rag-retrieval-augmented-generation/</link><pubDate>Sat, 14 Feb 2026 12:00:00 +0300</pubDate><guid>/glossary/rag-retrieval-augmented-generation/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;RAG (Retrieval-Augmented Generation)&lt;/strong&gt; — это архитектурный паттерн, при котором языковая модель перед генерацией ответа сначала ищет релевантную информацию во внешних источниках и использует её как контекст. Проще говоря, модель не полагается только на свою «память» — она сначала «заглядывает в справочник», а потом отвечает.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="зачем-это-нужно"&gt;Зачем это нужно&lt;/h2&gt;
&lt;p&gt;Большие языковые модели (LLM) обучены на огромных объёмах текста, но их знания заморожены на момент обучения. Они не знают о вчерашних событиях, не имеют доступа к вашим внутренним документам и иногда уверенно выдумывают факты — это называется &lt;strong&gt;галлюцинациями&lt;/strong&gt;.&lt;/p&gt;</description></item><item><title>ИИ-агенты (AI Agents)</title><link>/glossary/ii-agenty-ai-agents/</link><pubDate>Thu, 12 Feb 2026 12:00:00 +0300</pubDate><guid>/glossary/ii-agenty-ai-agents/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;ИИ-агент (AI Agent)&lt;/strong&gt; — это программная система на базе искусственного интеллекта, которая способна самостоятельно планировать последовательность действий, использовать внешние инструменты и адаптировать своё поведение для достижения поставленной цели — без пошагового управления со стороны человека.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="чем-агент-отличается-от-обычного-чат-бота"&gt;Чем агент отличается от обычного чат-бота&lt;/h2&gt;
&lt;p&gt;Обычный чат-бот работает в формате «вопрос → ответ»: вы пишете промпт, модель генерирует текст. ИИ-агент устроен иначе. Он получает &lt;strong&gt;цель&lt;/strong&gt;, а не инструкцию, и сам определяет, какие шаги нужно предпринять. Если один шаг не сработал, агент пересматривает план и пробует другой подход.&lt;/p&gt;</description></item><item><title>Как построить RAG-систему за один день</title><link>/guides/kak-postroit-rag-sistemu-za-odin-den/</link><pubDate>Wed, 11 Feb 2026 09:00:00 +0300</pubDate><guid>/guides/kak-postroit-rag-sistemu-za-odin-den/</guid><description>&lt;p&gt;Ваша модель отвечает уверенно — но врёт. Она не знает о вашей внутренней документации, о приказах за прошлый квартал, о базе клиентов. Это не баг GPT-4o или Claude — это архитектурная проблема. Решение называется RAG: Retrieval-Augmented Generation.&lt;/p&gt;
&lt;p&gt;За один рабочий день вы можете собрать систему, которая ищет нужные фрагменты в ваших документах и передаёт их модели как контекст. Без дообучения, без дорогих GPU, без магии. Только Python, несколько библиотек и здравый смысл.&lt;/p&gt;</description></item><item><title>Токенизация простыми словами: как LLM понимает текст</title><link>/articles/tokenizatsiya-prostymi-slovami-kak-llm-ponimaet-tekst/</link><pubDate>Wed, 11 Feb 2026 09:00:00 +0300</pubDate><guid>/articles/tokenizatsiya-prostymi-slovami-kak-llm-ponimaet-tekst/</guid><description>&lt;p&gt;Когда вы пишете запрос в ChatGPT или Claude, вам кажется, что модель читает ваш текст так же, как человек — слово за словом. На самом деле всё устроено иначе. Прежде чем нейросеть начнёт «думать» над вашим вопросом, текст проходит через невидимый, но критически важный этап — &lt;strong&gt;токенизацию&lt;/strong&gt;. Именно от неё зависит, сколько вы заплатите за API-запрос, насколько хорошо модель поймёт контекст и почему русский текст «съедает» лимит быстрее английского.&lt;/p&gt;
&lt;p&gt;В этой статье разберёмся, что такое токены, как работают основные алгоритмы токенизации и какие практические последствия это имеет для разработчиков и пользователей.&lt;/p&gt;</description></item><item><title>Квантование моделей: запуск большой LLM на слабом железе</title><link>/articles/kvantovanie-modelej-zapusk-llm-na-slabom-zheleze/</link><pubDate>Tue, 10 Feb 2026 18:00:00 +0300</pubDate><guid>/articles/kvantovanie-modelej-zapusk-llm-na-slabom-zheleze/</guid><description>&lt;p&gt;Модель с 70 миллиардами параметров занимает 140 ГБ в формате FP16. У вас нет сервера с четырьмя A100? Не проблема. Квантование позволяет сжать ту же модель до 40 ГБ и запустить её на паре потребительских видеокарт — или взять модель поменьше и уместить её в 8 ГБ VRAM обычной RTX 3060. В этой статье разберём, как это работает, какие методы существуют и что конкретно нужно делать.&lt;/p&gt;
&lt;h2 id="что-такое-квантование-и-зачем-оно-нужно"&gt;Что такое квантование и зачем оно нужно&lt;/h2&gt;
&lt;p&gt;Квантование — это снижение точности числового представления весов модели. Вместо 16-битных чисел с плавающей запятой (FP16) веса хранятся в 8-битном (INT8), 4-битном (INT4) или даже 2-битном формате. Математически это означает переход от непрерывного пространства значений к дискретному с меньшим числом уровней.&lt;/p&gt;</description></item><item><title>Mixture of Experts — MoE (Смесь экспертов)</title><link>/glossary/mixture-of-experts-moe/</link><pubDate>Tue, 10 Feb 2026 09:00:00 +0300</pubDate><guid>/glossary/mixture-of-experts-moe/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;Mixture of Experts (MoE)&lt;/strong&gt; — архитектура нейросети, в которой большая модель разбита на множество специализированных подсетей («экспертов»). При обработке каждого запроса активируется лишь небольшая часть этих экспертов — та, что наиболее подходит для задачи. Остальные в работе не участвуют.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="что-такое-moe-простыми-словами"&gt;Что такое MoE простыми словами&lt;/h2&gt;
&lt;p&gt;Представьте компанию, в которой работают сотни узких специалистов: юристы, программисты, дизайнеры, финансисты. Когда клиент приходит с задачей, менеджер (он же «роутер») оценивает вопрос и направляет его к двум-трём нужным специалистам. Остальные сотрудники в этот момент отдыхают.&lt;/p&gt;</description></item><item><title>RAG — генерация с дополненным извлечением (Retrieval-Augmented Generation)</title><link>/glossary/rag-retrieval-augmented-generation/</link><pubDate>Mon, 09 Feb 2026 09:00:00 +0300</pubDate><guid>/glossary/rag-retrieval-augmented-generation/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;RAG (Retrieval-Augmented Generation)&lt;/strong&gt; — подход, при котором языковая модель перед генерацией ответа сначала ищет релевантную информацию во внешней базе знаний. Это позволяет давать точные, актуальные ответы без необходимости переобучать модель.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="зачем-нужен-rag"&gt;Зачем нужен RAG&lt;/h2&gt;
&lt;p&gt;Большие языковые модели (LLM) обучены на огромных массивах текста, но у них есть два фундаментальных ограничения: знания «заморожены» на момент обучения, и модель может уверенно выдавать ложную информацию — так называемые галлюцинации.&lt;/p&gt;
&lt;p&gt;RAG решает обе проблемы. Вместо того чтобы полагаться только на «память» модели, система сначала находит нужные документы и подставляет их в контекст запроса. Модель отвечает, опираясь на конкретные источники, а не на догадки.&lt;/p&gt;</description></item><item><title>Claude Opus 4.6: умнейшая модель Anthropic обновилась</title><link>/articles/claude-opus-4-6-obzor-vozmozhnostey/</link><pubDate>Fri, 31 Jan 2025 00:00:00 +0000</pubDate><guid>/articles/claude-opus-4-6-obzor-vozmozhnostey/</guid><description>&lt;p&gt;5 февраля 2026 года Anthropic объявила о выходе &lt;strong&gt;Claude Opus 4.6&lt;/strong&gt; — обновлённой версии своей флагманской модели. Если предыдущие итерации Opus делали упор на глубокое рассуждение и работу с длинным контекстом, то Opus 4.6 целится в принципиально иной класс задач: автономные агенты, управление компьютером, сложный инструментальный вызов и финансовая аналитика.&lt;/p&gt;
&lt;p&gt;Это не косметическое обновление с парой процентных пунктов на бенчмарках. Anthropic перестроила модель под реальную агентную работу — когда AI не просто отвечает на вопросы, а &lt;strong&gt;выполняет многошаговые задачи в живой среде&lt;/strong&gt;. Разберём, что именно изменилось и как это повлияет на разработчиков и бизнес-пользователей.&lt;/p&gt;</description></item></channel></rss>