vLLM ROCm пришёл в Lemonade — запуск модели в одну команду

В свежем релизе Lemonade v10.4 появился экспериментальный бэкенд vLLM ROCm — теперь пользователи AMD-железа могут запускать языковые модели через vLLM так же легко, как через llama.cpp. Поддержка пока ограничена устройствами Strix Halo и Strix Point под Linux, но это важный шаг в расширении экосистемы локального AI на AMD.


Что такое Lemonade

Lemonade — открытый проект с поддержкой AMD, цель которого — сделать запуск локальных LLM простым и доступным. Это локальный AI-сервер, дающий те же возможности, что и облачные API, но абсолютно бесплатно и приватно: чат, кодинг, распознавание речи и генерация изображений — всё на собственном железе.

Lemonade Server устанавливается как сервис, к которому можно подключить сотни приложений через стандартные OpenAI, Anthropic и Ollama API. Проект создаётся сообществом при активном участии инженеров AMD — с оптимизациями под Ryzen AI, Radeon и Strix Halo.


Что нового: vLLM ROCm как экспериментальный бэкенд

В релизе v10.4 vLLM ROCm интегрирован как экспериментальный бэкенд для устройств Strix Halo и Strix Point (только Linux). Помимо этого, в выпуске полностью обновлена документация и улучшен Model Manager.

Ключевая особенность обновления — простота использования. Чтобы установить бэкенд и запустить модель, достаточно двух команд:

lemonade backends install vllm:rocm
lemonade run Qwen3.5-0.8B-vLLM
ℹ Что такое vLLM
vLLM (Virtual Large Language Model) — высокопроизводительный движок для инференса LLM, изначально разработанный для CUDA/NVIDIA. Одна из его особенностей — работа напрямую с весами в формате .safetensors, без предварительной конвертации в GGUF.

В архитектуре Lemonade vLLM представлен классом VLLMServer с поддержкой завершения (Completion) через GPU. Бэкенд экспериментальный и на данный момент проверен только на архитектуре gfx1151 (Strix Halo).


Поддерживаемые бэкенды Lemonade: сравнение

Lemonade поддерживает несколько движков инференса для LLM, распознавания речи, TTS и генерации изображений — у каждого свои требования к железу.

БэкендДвижокУстройствоОС
llama.cpp (vulkan)llama.cppCPU, AMD iGPU/dGPUWindows, Linux
llama.cpp (rocm)llama.cppAMD ROCm GPUWindows, Linux
llama.cpp (metal)llama.cppApple SiliconmacOS (beta)
flm (npu)FastFlowLMXDNA2 NPUWindows, Linux
vllm (experimental)vLLMStrix Halo iGPU (gfx1151)Linux
whispercppwhisper.cppNPU, CPUWindows, Linux
⚠ Ограничения
vLLM ROCm бэкенд в Lemonade работает только на Linux и протестирован исключительно на чипах архитектуры gfx1151 (AMD Strix Halo). Пользователям других GPU пока придётся подождать.

Как это работает технически


graph TD
    A[Пользователь запускает lemonade run] --> B[Router: выбор бэкенда]
    B --> C{Тип устройства}
    C -->|gfx1151 Strix Halo, Linux| D[vLLM ROCm backend]
    C -->|AMD GPU, ROCm| E[llama.cpp ROCm]
    C -->|AMD GPU, Vulkan| F[llama.cpp Vulkan]
    C -->|NPU XDNA2| G[FastFlowLM]
    D --> H[Инференс .safetensors модели]
    E --> I[Инференс GGUF модели]
    H --> J[OpenAI-совместимый API]
    I --> J

Бэкенды в Lemonade работают как подпроцессы — сервер перенаправляет к ним HTTP-запросы. Клиентские приложения подключаются через стандартные API совместимые с OpenAI, Anthropic и Ollama.


Преимущества vLLM перед llama.cpp

Главное отличие vLLM от привычного llama.cpp — поддержка оригинального формата весов .safetensors. Модели не нужно конвертировать в GGUF перед запуском. Это открывает доступ к свежим моделям сразу с Hugging Face, без ожидания конвертации.

💡 Для кого это полезно
Если вы работаете с моделями, которые ещё не доступны в формате GGUF, или хотите протестировать новинки прямо с HuggingFace — vLLM ROCm в Lemonade — это именно то, что нужно.

«Essentials реализованы, но есть известные шероховатости. Мы хотим фидбэк сообщества — чтобы понять, куда и насколько далеко двигаться дальше.» — команда Lemonade


Контекст: быстро растущая экосистема

Lemonade — открытый локальный AI-сервер с поддержкой AMD, работающий на CPU, GPU и NPU под Windows и Linux. В релизе v10.3, вышедшем буквально неделю назад, десктопное приложение перешло с Electron на Tauri — благодаря этому оно стало в 10 раз меньше. Также добавлена возможность переключаться между ROCm 7.2 stable, ROCm 7.12 preview и ночными сборками TheRock.

Для сборок vLLM с AMD ROCm создан отдельный репозиторий lemonade-sdk/vllm-rocm — портативные сборки vLLM с ускорением AMD ROCm специально для Lemonade.

📝 Быстрый старт
  1. Установите Lemonade: lemonade-server.ai
  2. Установите бэкенд: lemonade backends install vllm:rocm
  3. Запустите модель: lemonade run Qwen3.5-0.8B-vLLM
  4. Подключите своё приложение к http://localhost:13305/v1

Полное руководство: lemonade-server.ai/news/vllm-rocm.html


Итог

Добавление vLLM ROCm в Lemonade — значимый сигнал для AMD-сообщества. Пока поддержка экспериментальная и ограничена Strix Halo на Linux, но авторы проекта прямо говорят: дальнейшее развитие зависит от фидбэка пользователей. Если тема актуальна — самое время попробовать и оставить отзыв в Discord или на GitHub.