
LMCache: самый быстрый KV Cache для LLM-инференса
LMCache — открытый слой управления KV Cache для LLM. Новая MP-архитектура снижает TTFT в 13 раз и ускоряет декодирование в 4 раза.
LMCache превращает KV Cache в постоянный ресурс
LMCache — это слой управления KV Cache (ключ-значение кэш, промежуточные состояния внимания модели) для LLM-инференса. Он превращает KV Cache из временного состояния в переиспользуемые «AI-native» знания, которые можно хранить постоянно, применять на нескольких движках, мониторить и трансформировать. Это снижает TTFT (time-to-first-token, время до первого токена) и повышает пропускную способность — особенно для длинно-контекстных агентных задач, многоходовых диалогов и RAG-систем.
Новинки 2026 года
Мультипроцессная архитектура (MP Mode)
В апреле 2026 года вышел релиз новой мультипроцессной (MP) архитектуры LMCache. Это ключевое изменение в устройстве системы.
В MP-режиме LMCache больше не загружается в процесс vLLM как библиотека — вместо этого он работает как независимый процесс и общается с воркерами vLLM через RPC (ZMQ).
Один LMCache-сервер на узел может обслуживать несколько vLLM-подов, обеспечивая изоляцию процессов, общее кэширование и независимое масштабирование ресурсов.
МP-режим даёт три принципиальных преимущества:
Изоляция процессов — сбои в LMCache не влияют на основной процесс vLLM. Разделение ресурсов — CPU, память и I/O распределяются под LMCache независимо. Совместное использование — несколько инстансов vLLM могут делить один LMCache-сервис, формируя пул KV Cache на уровне машины или кластера.
Результаты бенчмарков MP-режима
MP-режим снижает TTFT примерно в 13 раз (0,29 с против 3,98 с) и улучшает хвостовую задержку p99 более чем в 10 раз (1,30 с против 13,55 с). Пропускная способность декодирования увеличивается почти в 4 раза (37,5 против 9,8 токенов/с).
Эксперименты проводились на сервере с 8× NVIDIA H100 80GB с использованием vLLM 0.18.1 и LMCache 0.4.3.
| Метрика | Без LMCache MP | С LMCache MP | Улучшение |
|---|---|---|---|
| TTFT (среднее) | 3,98 с | 0,29 с | ~13× |
| Задержка p99 | 13,55 с | 1,30 с | >10× |
| Throughput декодирования | 9,8 токенов/с | 37,5 токенов/с | ~4× |
P2P-шаринг CPU-памяти между узлами
В январе 2026 года функция мультиузлового P2P-шаринга CPU-памяти перешла из статуса экспериментальной в производственную.
Архитектура и поток данных
graph LR
A[Запрос к LLM] --> B[LMCache]
B --> C{Кэш-хит?}
C -- Да --> D[Загрузка KV из хранилища]
C -- Нет --> E[Инференс-движок]
E --> F[Сохранение KV в LMCache]
D --> G[Ответ пользователю]
F --> G
B --> H[(GPU RAM)]
B --> I[(CPU RAM / SSD)]
B --> J[(Redis / S3 / Mooncake)]
Ключевые возможности
Engine-independent deployment — LMCache работает как отдельный daemon-процесс и управляет KV Cache независимо от движка инференса: кэш не теряется даже при падении движка.
Tiered KV Cache offloading — кэш перемещается из GPU-памяти в иерархическое хранилище: CPU-память, локальный диск, удалённые бэкенды. Это позволяет переиспользовать кэш между запросами, сессиями и инстансами движка.
По данным бенчмарков, совместное использование LMCache и vLLM даёт снижение задержки в 3–10 раз в различных сценариях.
Поддерживаемые бэкенды хранения:
CPU RAM | SSD (локально) | Redis/Valkey | Mooncake
InfiniStore | S3-совместимые хранилища | NIXL | GDS
Экосистема и партнёры
LMCache полностью vendor-neutral: его можно использовать как KV Cache слой для широкого спектра open-source движков инференса, инфраструктурных провайдеров и производителей железа.
За последний год проект охватил крупных игроков:
- NVIDIA Dynamo интегрировал LMCache для ускорения инференса LLM.
- CoreWeave × Cohere использовали LMCache для эффективного LLM-инференса.
- PyTorch Foundation принял LMCache в своё сообщество, одновременно была анонсирована компания Tensormesh.
- Проект используется в продакшне на Google Cloud (GKE Inference).
- LMCache распространил поддержку на мультимодальные модели в vLLM V1.
Установить LMCache можно одной командой:
pip install lmcache
Документация, рецепты и руководство по продакшн-деплою доступны на docs.lmcache.ai.
Значение для отрасли
KV Cache — это не временное состояние, а ценный вычислительный ресурс, который можно хранить, делить и переиспользовать.
Оценки показывают, что совместное использование LMCache и vLLM обеспечивает до 15× улучшения пропускной способности в задачах многоходовых вопросов-ответов и анализа документов. Интеграция с Amazon SageMaker HyperPod даёт до 1,67× улучшения межтокенной задержки и 1,27× рост пропускной способности для многораундовых чатов при высокой конкурентности.
С выходом MP-архитектуры LMCache приближается к статусу де-факто стандарта в управлении KV Cache — открытый, vendor-neutral инструмент, который уже сегодня используют в реальных продакшн-системах от Google Cloud до NVIDIA Dynamo.