<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>GPU on AI-Uchi — Всё об искусственном интеллекте</title><link>/tags/gpu/</link><description>Recent content in GPU on AI-Uchi — Всё об искусственном интеллекте</description><generator>Hugo</generator><language>ru</language><lastBuildDate>Sun, 05 Apr 2026 12:00:00 +0300</lastBuildDate><atom:link href="/tags/gpu/index.xml" rel="self" type="application/rss+xml"/><item><title>Docker для AI-проектов: полное руководство</title><link>/guides/docker-dlia-ai-proektov-polnoe-rukovodstvo/</link><pubDate>Sun, 05 Apr 2026 12:00:00 +0300</pubDate><guid>/guides/docker-dlia-ai-proektov-polnoe-rukovodstvo/</guid><description>&lt;p&gt;«У меня всё работает локально» — фраза, которая похоронила десятки AI-проектов на этапе деплоя. Разные версии CUDA, конфликты Python-зависимостей, несовместимость драйверов — всё это превращает перенос модели с ноутбука разработчика на сервер в квест. Docker решает эту проблему: вы упаковываете модель, зависимости, рантайм и GPU-конфигурацию в один контейнер, который идентично работает где угодно.&lt;/p&gt;
&lt;p&gt;В этом руководстве — от базовой контейнеризации AI-проекта до продвинутых техник: GPU-ускорение через NVIDIA Container Toolkit, запуск LLM локально через Docker Model Runner, оптимизация образов multi-stage сборками и production-деплой.&lt;/p&gt;</description></item><item><title>Как работает инференс: от запроса до ответа</title><link>/articles/kak-rabotaet-inferens-ot-zaprosa-do-otveta/</link><pubDate>Sun, 22 Feb 2026 15:00:00 +0300</pubDate><guid>/articles/kak-rabotaet-inferens-ot-zaprosa-do-otveta/</guid><description>&lt;p&gt;Вы вводите запрос в ChatGPT, Claude или Gemini — и через долю секунды на экране начинают появляться слова. За этой кажущейся простотой скрывается сложнейший конвейер: токенизация, матричные вычисления на миллиардах параметров, управление памятью GPU и десятки оптимизаций, отточенных годами исследований. Этот конвейер называется &lt;strong&gt;инференс&lt;/strong&gt; (inference) — процесс получения ответа от обученной модели.&lt;/p&gt;
&lt;p&gt;В этой статье разберём каждый этап пути от текстового запроса до сгенерированного ответа и объясним, какие инженерные решения позволяют получать ответы за сотни миллисекунд.&lt;/p&gt;</description></item></channel></rss>