<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Инференс on AI-Uchi — Всё об искусственном интеллекте</title><link>/tags/%D0%B8%D0%BD%D1%84%D0%B5%D1%80%D0%B5%D0%BD%D1%81/</link><description>Recent content in Инференс on AI-Uchi — Всё об искусственном интеллекте</description><generator>Hugo</generator><language>ru</language><lastBuildDate>Mon, 23 Mar 2026 15:00:00 +0300</lastBuildDate><atom:link href="/tags/%D0%B8%D0%BD%D1%84%D0%B5%D1%80%D0%B5%D0%BD%D1%81/index.xml" rel="self" type="application/rss+xml"/><item><title>Обзор Ollama: запускаем LLM локально</title><link>/tools/obzor-ollama-zapuskaem-llm-lokalno/</link><pubDate>Mon, 23 Mar 2026 15:00:00 +0300</pubDate><guid>/tools/obzor-ollama-zapuskaem-llm-lokalno/</guid><description>&lt;p&gt;Облачные API дорожают, данные утекают, а лимиты раздражают. &lt;strong&gt;Ollama&lt;/strong&gt; предлагает альтернативу: запустить большую языковую модель прямо на своём компьютере одной командой. Без регистрации, без токенов, без ежемесячных счетов. Разбираемся, насколько это реально в 2026 году.&lt;/p&gt;
&lt;h2 id="что-такое-ollama-и-для-кого"&gt;Что такое Ollama и для кого&lt;/h2&gt;
&lt;p&gt;Ollama — open-source CLI-инструмент для скачивания, запуска и управления LLM-моделями локально. Написан на Go, работает как демон с REST API. Представьте Docker, но для AI-моделей: одна команда — и модель работает.&lt;/p&gt;</description></item><item><title>Flex и Priority в Gemini API: экономия и надёжность</title><link>/translations/flex-i-priority-v-gemini-api-ekonomiia-i-nadezhnost/</link><pubDate>Sat, 14 Mar 2026 09:00:00 +0300</pubDate><guid>/translations/flex-i-priority-v-gemini-api-ekonomiia-i-nadezhnost/</guid><description>&lt;p&gt;Когда ваше AI-приложение разрастается от простого чат-бота до сложной мультиагентной системы, появляется неизбежная проблема: одни задачи требуют мгновенного ответа, а другие спокойно могут подождать. До сих пор Gemini API предлагал два полюса — стандартный синхронный вызов и асинхронный Batch API. 2 апреля 2026 года Google заполнил пробел между ними, выпустив два новых уровня обслуживания: &lt;strong&gt;Flex&lt;/strong&gt; и &lt;strong&gt;Priority&lt;/strong&gt;.&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;Flex и Priority — это не замена существующих тарифов, а дополнительные уровни в рамках единого синхронного интерфейса. Один параметр &lt;code&gt;service_tier&lt;/code&gt; в запросе — и вы выбираете баланс между ценой и надёжностью.&lt;/p&gt;</description></item><item><title>Обзор LM Studio: GUI для локальных LLM-моделей</title><link>/tools/obzor-lm-studio-gui-dlia-lokalnykh-modelei/</link><pubDate>Wed, 11 Mar 2026 15:00:00 +0300</pubDate><guid>/tools/obzor-lm-studio-gui-dlia-lokalnykh-modelei/</guid><description>&lt;p&gt;Запуск больших языковых моделей на своём железе — уже не экзотика, а рабочий инструмент. Но командная строка и конфиги отпугивают многих. &lt;strong&gt;LM Studio&lt;/strong&gt; решает эту проблему: красивый GUI, один клик для скачивания модели, встроенный чат и локальный API-сервер. Разбираемся, насколько он хорош в 2026 году.&lt;/p&gt;
&lt;h2 id="что-такое-lm-studio-и-для-кого"&gt;Что такое LM Studio и для кого&lt;/h2&gt;
&lt;p&gt;LM Studio — десктопное приложение для обнаружения, скачивания и запуска open-source LLM-моделей локально на вашем компьютере. Работает на Windows, macOS и Linux.&lt;/p&gt;</description></item><item><title>Как работает инференс: от запроса до ответа</title><link>/articles/kak-rabotaet-inferens-ot-zaprosa-do-otveta/</link><pubDate>Sun, 22 Feb 2026 15:00:00 +0300</pubDate><guid>/articles/kak-rabotaet-inferens-ot-zaprosa-do-otveta/</guid><description>&lt;p&gt;Вы вводите запрос в ChatGPT, Claude или Gemini — и через долю секунды на экране начинают появляться слова. За этой кажущейся простотой скрывается сложнейший конвейер: токенизация, матричные вычисления на миллиардах параметров, управление памятью GPU и десятки оптимизаций, отточенных годами исследований. Этот конвейер называется &lt;strong&gt;инференс&lt;/strong&gt; (inference) — процесс получения ответа от обученной модели.&lt;/p&gt;
&lt;p&gt;В этой статье разберём каждый этап пути от текстового запроса до сгенерированного ответа и объясним, какие инженерные решения позволяют получать ответы за сотни миллисекунд.&lt;/p&gt;</description></item></channel></rss>