LMCache: самый быстрый KV Cache для LLM-инференса

LMCache превращает KV Cache в постоянный ресурс

LMCache — это слой управления KV Cache (ключ-значение кэш, промежуточные состояния внимания модели) для LLM-инференса. Он превращает KV Cache из временного состояния в переиспользуемые «AI-native» знания, которые можно хранить постоянно, применять на нескольких движках, мониторить и трансформировать. Это снижает TTFT (time-to-first-token, время до первого токена) и повышает пропускную способность — особенно для длинно-контекстных агентных задач, многоходовых диалогов и RAG-систем.

ℹ Что такое KV Cache

KV Cache хранит вычисленные ключи и значения механизма внимания (attention). Без кэша модель пересчитывает их при каждом запросе заново — это дорого по времени и памяти GPU.

Новинки 2026 года

Мультипроцессная архитектура (MP Mode)

В апреле 2026 года вышел релиз новой мультипроцессной (MP) архитектуры LMCache. Это ключевое изменение в устройстве системы.

В MP-режиме LMCache больше не загружается в процесс vLLM как библиотека — вместо этого он работает как независимый процесс и общается с воркерами vLLM через RPC (ZMQ).

Один LMCache-сервер на узел может обслуживать несколько vLLM-подов, обеспечивая изоляцию процессов, общее кэширование и независимое масштабирование ресурсов.

МP-режим даёт три принципиальных преимущества:

Изоляция процессов — сбои в LMCache не влияют на основной процесс vLLM. Разделение ресурсов — CPU, память и I/O распределяются под LMCache независимо. Совместное использование — несколько инстансов vLLM могут делить один LMCache-сервис, формируя пул KV Cache на уровне машины или кластера.

Результаты бенчмарков MP-режима

MP-режим снижает TTFT примерно в 13 раз (0,29 с против 3,98 с) и улучшает хвостовую задержку p99 более чем в 10 раз (1,30 с против 13,55 с). Пропускная способность декодирования увеличивается почти в 4 раза (37,5 против 9,8 токенов/с).

Эксперименты проводились на сервере с 8× NVIDIA H100 80GB с использованием vLLM 0.18.1 и LMCache 0.4.3.

Метрика	Без LMCache MP	С LMCache MP	Улучшение
TTFT (среднее)	3,98 с	0,29 с	~13×
Задержка p99	13,55 с	1,30 с	>10×
Throughput декодирования	9,8 токенов/с	37,5 токенов/с	~4×

P2P-шаринг CPU-памяти между узлами

В январе 2026 года функция мультиузлового P2P-шаринга CPU-памяти перешла из статуса экспериментальной в производственную.

💡 AMD MI300X

В мае 2026 года вышел бенчмарк агентных нагрузок на AMD MI300X. LMCache полностью vendor-neutral и работает не только на NVIDIA, но и на AMD, Arm и Ascend.

Архитектура и поток данных


graph LR
    A[Запрос к LLM] --> B[LMCache]
    B --> C{Кэш-хит?}
    C -- Да --> D[Загрузка KV из хранилища]
    C -- Нет --> E[Инференс-движок]
    E --> F[Сохранение KV в LMCache]
    D --> G[Ответ пользователю]
    F --> G
    B --> H[(GPU RAM)]
    B --> I[(CPU RAM / SSD)]
    B --> J[(Redis / S3 / Mooncake)]

Ключевые возможности

Engine-independent deployment — LMCache работает как отдельный daemon-процесс и управляет KV Cache независимо от движка инференса: кэш не теряется даже при падении движка.

Tiered KV Cache offloading — кэш перемещается из GPU-памяти в иерархическое хранилище: CPU-память, локальный диск, удалённые бэкенды. Это позволяет переиспользовать кэш между запросами, сессиями и инстансами движка.

По данным бенчмарков, совместное использование LMCache и vLLM даёт снижение задержки в 3–10 раз в различных сценариях.

Поддерживаемые бэкенды хранения:

CPU RAM | SSD (локально) | Redis/Valkey | Mooncake
InfiniStore | S3-совместимые хранилища | NIXL | GDS

Экосистема и партнёры

LMCache полностью vendor-neutral: его можно использовать как KV Cache слой для широкого спектра open-source движков инференса, инфраструктурных провайдеров и производителей железа.

За последний год проект охватил крупных игроков:

NVIDIA Dynamo интегрировал LMCache для ускорения инференса LLM.
CoreWeave × Cohere использовали LMCache для эффективного LLM-инференса.
PyTorch Foundation принял LMCache в своё сообщество, одновременно была анонсирована компания Tensormesh.
Проект используется в продакшне на Google Cloud (GKE Inference).
LMCache распространил поддержку на мультимодальные модели в vLLM V1.

📝 Быстрый старт

Установить LMCache можно одной командой:

pip install lmcache

Документация, рецепты и руководство по продакшн-деплою доступны на docs.lmcache.ai.

Значение для отрасли

KV Cache — это не временное состояние, а ценный вычислительный ресурс, который можно хранить, делить и переиспользовать.

Оценки показывают, что совместное использование LMCache и vLLM обеспечивает до 15× улучшения пропускной способности в задачах многоходовых вопросов-ответов и анализа документов. Интеграция с Amazon SageMaker HyperPod даёт до 1,67× улучшения межтокенной задержки и 1,27× рост пропускной способности для многораундовых чатов при высокой конкурентности.

С выходом MP-архитектуры LMCache приближается к статусу де-факто стандарта в управлении KV Cache — открытый, vendor-neutral инструмент, который уже сегодня используют в реальных продакшн-системах от Google Cloud до NVIDIA Dynamo.

LMCache превращает KV Cache в постоянный ресурс

Новинки 2026 года

Мультипроцессная архитектура (MP Mode)

Результаты бенчмарков MP-режима

P2P-шаринг CPU-памяти между узлами

Архитектура и поток данных

Ключевые возможности

Экосистема и партнёры

Значение для отрасли

Источники

Похожие статьи

vLLM ROCm теперь в Lemonade: новый бэкенд для AMD

Оптимизация инференса больших трансформеров

Kage: клонируй любой сайт в один бинарник без JS

obsidian-wiki: «цифровой мозг» для AI-агентов по методу Карпати

Хакеры строят города и подкасты: что делают инди-разработчики в июне 2026