<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>NLP on AI-Uchi — Всё об искусственном интеллекте</title><link>/tags/nlp/</link><description>Recent content in NLP on AI-Uchi — Всё об искусственном интеллекте</description><generator>Hugo</generator><language>ru</language><lastBuildDate>Wed, 01 Apr 2026 15:00:00 +0300</lastBuildDate><atom:link href="/tags/nlp/index.xml" rel="self" type="application/rss+xml"/><item><title>Эмбеддинг (Embedding)</title><link>/glossary/embedding-embedding/</link><pubDate>Wed, 01 Apr 2026 15:00:00 +0300</pubDate><guid>/glossary/embedding-embedding/</guid><description>&lt;h2 id="что-такое-эмбеддинг"&gt;Что такое эмбеддинг?&lt;/h2&gt;



&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;Эмбеддинг (embedding)&lt;/strong&gt; — это способ превратить текст, изображение или другой объект в набор чисел (вектор), который отражает его смысл. Близкие по значению объекты получают похожие векторы, далёкие — различные.&lt;/div&gt;
&lt;/div&gt;

&lt;p&gt;Представьте, что вам нужно объяснить компьютеру, что «кот» и «кошка» — почти одно и то же, а «кот» и «бетономешалка» — совсем разное. Обычный текст для машины — просто набор символов. Эмбеддинг решает эту проблему: он переводит слова и предложения в числовое пространство, где расстояние между точками соответствует смысловой близости.&lt;/p&gt;</description></item><item><title>Нейросети для NLP: от RNN к трансформерам</title><link>/articles/neiroseti-dlya-nlp-ot-rnn-k-transformeram/</link><pubDate>Wed, 25 Mar 2026 15:00:00 +0300</pubDate><guid>/articles/neiroseti-dlya-nlp-ot-rnn-k-transformeram/</guid><description>&lt;p&gt;В 2017 году восемь исследователей из Google опубликовали статью с дерзким названием «Attention Is All You Need». К 2026-му она набрала свыше 150 000 цитирований и перевернула всю область обработки естественного языка. Но трансформер не появился из ниоткуда — ему предшествовали десятилетия экспериментов с рекуррентными сетями, которые учились читать текст слово за словом.&lt;/p&gt;
&lt;p&gt;Эта статья — путь от первых RNN до современных архитектур, на которых построены GPT-4, Claude и Gemini. Без мифов, с техническими деталями и честным сравнением подходов.&lt;/p&gt;</description></item><item><title>Как работают трансформеры: архитектура, изменившая AI</title><link>/articles/kak-rabotaiut-transformery-arkhitektura-izmenivshaia-ai/</link><pubDate>Thu, 19 Mar 2026 09:00:00 +0300</pubDate><guid>/articles/kak-rabotaiut-transformery-arkhitektura-izmenivshaia-ai/</guid><description>&lt;p&gt;В 2017 году восемь исследователей из Google опубликовали статью с провокационным названием «Attention Is All You Need» — отсылку к песне The Beatles «All You Need Is Love». Статья представила архитектуру трансформера — нейросеть на 100 миллионов параметров, которая обходилась без рекуррентных и свёрточных слоёв. Тогда это казалось смелым экспериментом. Сегодня каждая крупная языковая модель — GPT-5, Claude Opus, Gemini 3, Llama 4 — построена на этой архитектуре. Разберёмся, как она устроена и почему оказалась настолько мощной.&lt;/p&gt;</description></item><item><title>Attention is All You Need: статья, изменившая AI</title><link>/articles/attention-is-all-you-need-statia-izmenivshaia-ai/</link><pubDate>Sat, 14 Mar 2026 18:00:00 +0300</pubDate><guid>/articles/attention-is-all-you-need-statia-izmenivshaia-ai/</guid><description>&lt;p&gt;12 июня 2017 года восемь исследователей из Google Brain и Google Research выложили на arXiv препринт с провокационным названием — «Attention Is All You Need». Статья на 15 страниц предлагала полностью отказаться от рекуррентных и свёрточных сетей в пользу нового подхода — механизма внимания. Никто из авторов не мог предположить, что именно эта работа станет фундаментом для ChatGPT, BERT, Claude, Gemini и всей индустрии генеративного AI.&lt;/p&gt;
&lt;p&gt;К 2025 году статья набрала более 173 000 цитирований — это один из десяти самых цитируемых научных текстов XXI века. Разберёмся, что именно предложили авторы, почему это сработало и как одна архитектура перевернула всю отрасль.&lt;/p&gt;</description></item><item><title>Промпт для извлечения структурированных данных из текста</title><link>/prompts/prompt-dlia-izvlecheniia-strukturirovannykh-dannykh-iz-teksta/</link><pubDate>Fri, 06 Mar 2026 15:00:00 +0300</pubDate><guid>/prompts/prompt-dlia-izvlecheniia-strukturirovannykh-dannykh-iz-teksta/</guid><description>&lt;h2 id="задача"&gt;Задача&lt;/h2&gt;
&lt;p&gt;Вам приходят неструктурированные тексты — резюме кандидатов, клиентские отзывы, счета от поставщиков, описания вакансий, письма — и нужно &lt;strong&gt;автоматически извлечь из них ключевые поля&lt;/strong&gt; в формате JSON. Руками это долго и ненадёжно. LLM справляется за секунды.&lt;/p&gt;
&lt;p&gt;Этот рецепт даёт вам &lt;strong&gt;универсальный шаблон промпта&lt;/strong&gt;, который адаптируется под любой тип документа.&lt;/p&gt;



&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Почему это важно&lt;/div&gt;
 &lt;div class="callout-content"&gt;По данным исследований, до 80% корпоративных данных хранится в неструктурированном виде. Промпт-извлечение — самый быстрый способ превратить текст в таблицу без написания парсеров.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="для-кого"&gt;Для кого&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Аналитики данных&lt;/strong&gt; — быстрый парсинг отчётов и документов&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;HR-специалисты&lt;/strong&gt; — обработка резюме и заявок&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Маркетологи&lt;/strong&gt; — анализ отзывов и упоминаний бренда&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Разработчики&lt;/strong&gt; — интеграция извлечения данных в пайплайны&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Предприниматели&lt;/strong&gt; — автоматизация рутинной обработки документов&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="как-работает-промпт"&gt;Как работает промпт&lt;/h2&gt;
&lt;pre class="mermaid"&gt;

graph LR
 A["📄 Неструктурированный текст"] --&gt; B["🔧 Промпт с JSON-схемой"]
 B --&gt; C["🤖 LLM анализирует"]
 C --&gt; D["📊 Структурированный JSON"]
 D --&gt; E["💾 БД / Таблица / API"]

&lt;/pre&gt;

&lt;p&gt;Принцип прост: вы даёте модели &lt;strong&gt;текст + схему нужных полей&lt;/strong&gt;, и она возвращает заполненный JSON. Ключ к качеству — точное описание каждого поля и правила обработки неопределённости.&lt;/p&gt;</description></item><item><title>Работа с Hugging Face: от выбора модели до деплоя</title><link>/guides/rabota-s-hugging-face-ot-vybora-modeli-do-deploia/</link><pubDate>Tue, 03 Mar 2026 12:00:00 +0300</pubDate><guid>/guides/rabota-s-hugging-face-ot-vybora-modeli-do-deploia/</guid><description>&lt;p&gt;Два миллиона моделей, полмиллиона датасетов, миллион демо-приложений — и всё это в открытом доступе. Hugging Face давно перестал быть просто библиотекой для NLP: сегодня это полноценная платформа, на которой можно выбрать модель, протестировать её, дообучить под свою задачу и задеплоить в продакшен — не написав ни одного DevOps-скрипта. Но именно из-за масштаба экосистемы новичкам легко потеряться. Этот гайд проведёт вас через весь путь: от первого поиска модели на Hub до работающего API-эндпоинта.&lt;/p&gt;</description></item><item><title>RAG — генерация с дополненной выборкой (Retrieval-Augmented Generation)</title><link>/glossary/rag-retrieval-augmented-generation/</link><pubDate>Tue, 17 Feb 2026 15:00:00 +0300</pubDate><guid>/glossary/rag-retrieval-augmented-generation/</guid><description>&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Info&lt;/div&gt;
 &lt;div class="callout-content"&gt;&lt;strong&gt;RAG (Retrieval-Augmented Generation)&lt;/strong&gt; — это метод, при котором языковая модель сначала находит релевантные документы во внешней базе знаний, а затем генерирует ответ на их основе. Проще говоря: вместо того чтобы отвечать «по памяти», модель сначала «подсматривает в шпаргалку».&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="зачем-это-нужно"&gt;Зачем это нужно&lt;/h2&gt;
&lt;p&gt;Большие языковые модели (LLM) обучаются на огромных объёмах текста, но их знания заморожены на момент обучения. Они не знают о вчерашних событиях, не имеют доступа к вашим внутренним документам и иногда уверенно выдумывают факты — это называется «галлюцинации».&lt;/p&gt;</description></item><item><title>Embedding и векторный поиск: основа AI-приложений</title><link>/articles/embedding-i-vektornyi-poisk-osnova-ai-prilozhenii/</link><pubDate>Sun, 15 Feb 2026 18:00:00 +0300</pubDate><guid>/articles/embedding-i-vektornyi-poisk-osnova-ai-prilozhenii/</guid><description>&lt;p&gt;Представьте: вы задаёте вопрос чат-боту, и он находит точный ответ среди миллионов документов за миллисекунды. Не по ключевым словам — а по &lt;strong&gt;смыслу&lt;/strong&gt;. Это не магия. Это embedding и векторный поиск — две технологии, без которых не работает ни один современный AI-продукт: от RAG-систем до рекомендательных сервисов.&lt;/p&gt;
&lt;p&gt;В этой статье разберём, как текст превращается в числа, почему косинусное расстояние важнее точного совпадения слов и какую векторную базу данных выбрать в 2026 году.&lt;/p&gt;</description></item><item><title>Токенизация простыми словами: как LLM понимает текст</title><link>/articles/tokenizatsiya-prostymi-slovami-kak-llm-ponimaet-tekst/</link><pubDate>Wed, 11 Feb 2026 09:00:00 +0300</pubDate><guid>/articles/tokenizatsiya-prostymi-slovami-kak-llm-ponimaet-tekst/</guid><description>&lt;p&gt;Когда вы пишете запрос в ChatGPT или Claude, вам кажется, что модель читает ваш текст так же, как человек — слово за словом. На самом деле всё устроено иначе. Прежде чем нейросеть начнёт «думать» над вашим вопросом, текст проходит через невидимый, но критически важный этап — &lt;strong&gt;токенизацию&lt;/strong&gt;. Именно от неё зависит, сколько вы заплатите за API-запрос, насколько хорошо модель поймёт контекст и почему русский текст «съедает» лимит быстрее английского.&lt;/p&gt;
&lt;p&gt;В этой статье разберёмся, что такое токены, как работают основные алгоритмы токенизации и какие практические последствия это имеет для разработчиков и пользователей.&lt;/p&gt;</description></item></channel></rss>