vLLM ROCm теперь в Lemonade: новый бэкенд для AMD
В Lemonade v10.4 добавлен экспериментальный бэкенд vLLM ROCm для AMD Strix Halo. Запуск модели — одна строка в терминале.
vLLM ROCm пришёл в Lemonade — запуск модели в одну команду
В свежем релизе Lemonade v10.4 появился экспериментальный бэкенд vLLM ROCm — теперь пользователи AMD-железа могут запускать языковые модели через vLLM так же легко, как через llama.cpp. Поддержка пока ограничена устройствами Strix Halo и Strix Point под Linux, но это важный шаг в расширении экосистемы локального AI на AMD.
Что такое Lemonade
Lemonade — открытый проект с поддержкой AMD, цель которого — сделать запуск локальных LLM простым и доступным. Это локальный AI-сервер, дающий те же возможности, что и облачные API, но абсолютно бесплатно и приватно: чат, кодинг, распознавание речи и генерация изображений — всё на собственном железе.
Lemonade Server устанавливается как сервис, к которому можно подключить сотни приложений через стандартные OpenAI, Anthropic и Ollama API. Проект создаётся сообществом при активном участии инженеров AMD — с оптимизациями под Ryzen AI, Radeon и Strix Halo.
Что нового: vLLM ROCm как экспериментальный бэкенд
В релизе v10.4 vLLM ROCm интегрирован как экспериментальный бэкенд для устройств Strix Halo и Strix Point (только Linux). Помимо этого, в выпуске полностью обновлена документация и улучшен Model Manager.
Ключевая особенность обновления — простота использования. Чтобы установить бэкенд и запустить модель, достаточно двух команд:
lemonade backends install vllm:rocm
lemonade run Qwen3.5-0.8B-vLLM
.safetensors, без предварительной конвертации в GGUF.В архитектуре Lemonade vLLM представлен классом VLLMServer с поддержкой завершения (Completion) через GPU. Бэкенд экспериментальный и на данный момент проверен только на архитектуре gfx1151 (Strix Halo).
Поддерживаемые бэкенды Lemonade: сравнение
Lemonade поддерживает несколько движков инференса для LLM, распознавания речи, TTS и генерации изображений — у каждого свои требования к железу.
| Бэкенд | Движок | Устройство | ОС |
|---|---|---|---|
| llama.cpp (vulkan) | llama.cpp | CPU, AMD iGPU/dGPU | Windows, Linux |
| llama.cpp (rocm) | llama.cpp | AMD ROCm GPU | Windows, Linux |
| llama.cpp (metal) | llama.cpp | Apple Silicon | macOS (beta) |
| flm (npu) | FastFlowLM | XDNA2 NPU | Windows, Linux |
| vllm (experimental) | vLLM | Strix Halo iGPU (gfx1151) | Linux |
| whispercpp | whisper.cpp | NPU, CPU | Windows, Linux |
Как это работает технически
graph TD
A[Пользователь запускает lemonade run] --> B[Router: выбор бэкенда]
B --> C{Тип устройства}
C -->|gfx1151 Strix Halo, Linux| D[vLLM ROCm backend]
C -->|AMD GPU, ROCm| E[llama.cpp ROCm]
C -->|AMD GPU, Vulkan| F[llama.cpp Vulkan]
C -->|NPU XDNA2| G[FastFlowLM]
D --> H[Инференс .safetensors модели]
E --> I[Инференс GGUF модели]
H --> J[OpenAI-совместимый API]
I --> J
Бэкенды в Lemonade работают как подпроцессы — сервер перенаправляет к ним HTTP-запросы. Клиентские приложения подключаются через стандартные API совместимые с OpenAI, Anthropic и Ollama.
Преимущества vLLM перед llama.cpp
Главное отличие vLLM от привычного llama.cpp — поддержка оригинального формата весов .safetensors. Модели не нужно конвертировать в GGUF перед запуском. Это открывает доступ к свежим моделям сразу с Hugging Face, без ожидания конвертации.
«Essentials реализованы, но есть известные шероховатости. Мы хотим фидбэк сообщества — чтобы понять, куда и насколько далеко двигаться дальше.» — команда Lemonade
Контекст: быстро растущая экосистема
Lemonade — открытый локальный AI-сервер с поддержкой AMD, работающий на CPU, GPU и NPU под Windows и Linux. В релизе v10.3, вышедшем буквально неделю назад, десктопное приложение перешло с Electron на Tauri — благодаря этому оно стало в 10 раз меньше. Также добавлена возможность переключаться между ROCm 7.2 stable, ROCm 7.12 preview и ночными сборками TheRock.
Для сборок vLLM с AMD ROCm создан отдельный репозиторий lemonade-sdk/vllm-rocm — портативные сборки vLLM с ускорением AMD ROCm специально для Lemonade.
- Установите Lemonade: lemonade-server.ai
- Установите бэкенд:
lemonade backends install vllm:rocm - Запустите модель:
lemonade run Qwen3.5-0.8B-vLLM - Подключите своё приложение к
http://localhost:13305/v1
Полное руководство: lemonade-server.ai/news/vllm-rocm.html
Итог
Добавление vLLM ROCm в Lemonade — значимый сигнал для AMD-сообщества. Пока поддержка экспериментальная и ограничена Strix Halo на Linux, но авторы проекта прямо говорят: дальнейшее развитие зависит от фидбэка пользователей. Если тема актуальна — самое время попробовать и оставить отзыв в Discord или на GitHub.