VLLM

3 материала

LMCache — открытый слой управления KV Cache для LLM. Новая MP-архитектура снижает TTFT в 13 раз и …

Полное руководство по ускорению инференса LLM: KV-кэш, квантизация, спекулятивное декодирование, MoE …

В Lemonade v10.4 добавлен экспериментальный бэкенд vLLM ROCm для AMD Strix Halo. Запуск модели — …