<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>LLM Инференс on AI-Uchi — Всё об искусственном интеллекте</title><link>/tags/llm-%D0%B8%D0%BD%D1%84%D0%B5%D1%80%D0%B5%D0%BD%D1%81/</link><description>Recent content in LLM Инференс on AI-Uchi — Всё об искусственном интеллекте</description><generator>Hugo</generator><language>ru</language><lastBuildDate>Sun, 14 Jun 2026 03:11:10 +0300</lastBuildDate><atom:link href="/tags/llm-%D0%B8%D0%BD%D1%84%D0%B5%D1%80%D0%B5%D0%BD%D1%81/index.xml" rel="self" type="application/rss+xml"/><item><title>LMCache: самый быстрый KV Cache для LLM-инференса</title><link>/news/lmcache-samyj-bystryj-kv-cache-dlya-llm/</link><pubDate>Sun, 14 Jun 2026 03:11:10 +0300</pubDate><guid>/news/lmcache-samyj-bystryj-kv-cache-dlya-llm/</guid><description>&lt;h2 id="lmcache-превращает-kv-cache-в-постоянный-ресурс"&gt;LMCache превращает KV Cache в постоянный ресурс&lt;/h2&gt;
&lt;p&gt;LMCache — это слой управления KV Cache (ключ-значение кэш, промежуточные состояния внимания модели) для LLM-инференса. Он превращает KV Cache из временного состояния в переиспользуемые «AI-native» знания, которые можно хранить постоянно, применять на нескольких движках, мониторить и трансформировать. Это снижает TTFT (time-to-first-token, время до первого токена) и повышает пропускную способность — особенно для длинно-контекстных агентных задач, многоходовых диалогов и RAG-систем.&lt;/p&gt;



&lt;div class="callout callout-info"&gt;
 &lt;div class="callout-title"&gt;&amp;#8505; Что такое KV Cache&lt;/div&gt;
 &lt;div class="callout-content"&gt;KV Cache хранит вычисленные ключи и значения механизма внимания (attention). Без кэша модель пересчитывает их при каждом запросе заново — это дорого по времени и памяти GPU.&lt;/div&gt;
&lt;/div&gt;

&lt;h2 id="новинки-2026-года"&gt;Новинки 2026 года&lt;/h2&gt;
&lt;h3 id="мультипроцессная-архитектура-mp-mode"&gt;Мультипроцессная архитектура (MP Mode)&lt;/h3&gt;
&lt;p&gt;В апреле 2026 года вышел релиз новой мультипроцессной (MP) архитектуры LMCache. Это ключевое изменение в устройстве системы.&lt;/p&gt;</description></item></channel></rss>