◆ AI-Uchi
Статьи Переводы Новости Гайды Инструменты Промпты Глоссарий

VLLM

3 материала
14 Jun
news

LMCache: самый быстрый KV Cache для LLM-инференса

LMCache — открытый слой управления KV Cache для LLM. Новая MP-архитектура снижает TTFT в 13 раз и …

→
31 May
article

Оптимизация инференса больших трансформеров

Полное руководство по ускорению инференса LLM: KV-кэш, квантизация, спекулятивное декодирование, MoE …

→
09 May
news

vLLM ROCm теперь в Lemonade: новый бэкенд для AMD

В Lemonade v10.4 добавлен экспериментальный бэкенд vLLM ROCm для AMD Strix Halo. Запуск модели — …

→

© 2026 AI-Uchi — Всё об искусственном интеллекте