vLLM ROCm теперь в Lemonade: новый бэкенд для AMD

vLLM ROCm пришёл в Lemonade — запуск модели в одну команду

В свежем релизе Lemonade v10.4 появился экспериментальный бэкенд vLLM ROCm — теперь пользователи AMD-железа могут запускать языковые модели через vLLM так же легко, как через llama.cpp. Поддержка пока ограничена устройствами Strix Halo и Strix Point под Linux, но это важный шаг в расширении экосистемы локального AI на AMD.

Что такое Lemonade

Lemonade — открытый проект с поддержкой AMD, цель которого — сделать запуск локальных LLM простым и доступным. Это локальный AI-сервер, дающий те же возможности, что и облачные API, но абсолютно бесплатно и приватно: чат, кодинг, распознавание речи и генерация изображений — всё на собственном железе.

Lemonade Server устанавливается как сервис, к которому можно подключить сотни приложений через стандартные OpenAI, Anthropic и Ollama API. Проект создаётся сообществом при активном участии инженеров AMD — с оптимизациями под Ryzen AI, Radeon и Strix Halo.

Что нового: vLLM ROCm как экспериментальный бэкенд

В релизе v10.4 vLLM ROCm интегрирован как экспериментальный бэкенд для устройств Strix Halo и Strix Point (только Linux). Помимо этого, в выпуске полностью обновлена документация и улучшен Model Manager.

Ключевая особенность обновления — простота использования. Чтобы установить бэкенд и запустить модель, достаточно двух команд:

lemonade backends install vllm:rocm
lemonade run Qwen3.5-0.8B-vLLM

ℹ Что такое vLLM

vLLM (Virtual Large Language Model) — высокопроизводительный движок для инференса LLM, изначально разработанный для CUDA/NVIDIA. Одна из его особенностей — работа напрямую с весами в формате .safetensors, без предварительной конвертации в GGUF.

В архитектуре Lemonade vLLM представлен классом VLLMServer с поддержкой завершения (Completion) через GPU. Бэкенд экспериментальный и на данный момент проверен только на архитектуре gfx1151 (Strix Halo).

Поддерживаемые бэкенды Lemonade: сравнение

Lemonade поддерживает несколько движков инференса для LLM, распознавания речи, TTS и генерации изображений — у каждого свои требования к железу.

Бэкенд	Движок	Устройство	ОС
llama.cpp (vulkan)	llama.cpp	CPU, AMD iGPU/dGPU	Windows, Linux
llama.cpp (rocm)	llama.cpp	AMD ROCm GPU	Windows, Linux
llama.cpp (metal)	llama.cpp	Apple Silicon	macOS (beta)
flm (npu)	FastFlowLM	XDNA2 NPU	Windows, Linux
vllm (experimental)	vLLM	Strix Halo iGPU (gfx1151)	Linux
whispercpp	whisper.cpp	NPU, CPU	Windows, Linux

⚠ Ограничения

vLLM ROCm бэкенд в Lemonade работает только на Linux и протестирован исключительно на чипах архитектуры gfx1151 (AMD Strix Halo). Пользователям других GPU пока придётся подождать.

Как это работает технически


graph TD
    A[Пользователь запускает lemonade run] --> B[Router: выбор бэкенда]
    B --> C{Тип устройства}
    C -->|gfx1151 Strix Halo, Linux| D[vLLM ROCm backend]
    C -->|AMD GPU, ROCm| E[llama.cpp ROCm]
    C -->|AMD GPU, Vulkan| F[llama.cpp Vulkan]
    C -->|NPU XDNA2| G[FastFlowLM]
    D --> H[Инференс .safetensors модели]
    E --> I[Инференс GGUF модели]
    H --> J[OpenAI-совместимый API]
    I --> J

Бэкенды в Lemonade работают как подпроцессы — сервер перенаправляет к ним HTTP-запросы. Клиентские приложения подключаются через стандартные API совместимые с OpenAI, Anthropic и Ollama.

Преимущества vLLM перед llama.cpp

Главное отличие vLLM от привычного llama.cpp — поддержка оригинального формата весов .safetensors. Модели не нужно конвертировать в GGUF перед запуском. Это открывает доступ к свежим моделям сразу с Hugging Face, без ожидания конвертации.

💡 Для кого это полезно

Если вы работаете с моделями, которые ещё не доступны в формате GGUF, или хотите протестировать новинки прямо с HuggingFace — vLLM ROCm в Lemonade — это именно то, что нужно.

«Essentials реализованы, но есть известные шероховатости. Мы хотим фидбэк сообщества — чтобы понять, куда и насколько далеко двигаться дальше.» — команда Lemonade

Контекст: быстро растущая экосистема

Lemonade — открытый локальный AI-сервер с поддержкой AMD, работающий на CPU, GPU и NPU под Windows и Linux. В релизе v10.3, вышедшем буквально неделю назад, десктопное приложение перешло с Electron на Tauri — благодаря этому оно стало в 10 раз меньше. Также добавлена возможность переключаться между ROCm 7.2 stable, ROCm 7.12 preview и ночными сборками TheRock.

Для сборок vLLM с AMD ROCm создан отдельный репозиторий lemonade-sdk/vllm-rocm — портативные сборки vLLM с ускорением AMD ROCm специально для Lemonade.

📝 Быстрый старт

Установите Lemonade: lemonade-server.ai
Установите бэкенд: lemonade backends install vllm:rocm
Запустите модель: lemonade run Qwen3.5-0.8B-vLLM
Подключите своё приложение к http://localhost:13305/v1

Полное руководство: lemonade-server.ai/news/vllm-rocm.html

Итог

Добавление vLLM ROCm в Lemonade — значимый сигнал для AMD-сообщества. Пока поддержка экспериментальная и ограничена Strix Halo на Linux, но авторы проекта прямо говорят: дальнейшее развитие зависит от фидбэка пользователей. Если тема актуальна — самое время попробовать и оставить отзыв в Discord или на GitHub.

vLLM ROCm пришёл в Lemonade — запуск модели в одну команду

Что такое Lemonade

Что нового: vLLM ROCm как экспериментальный бэкенд

Поддерживаемые бэкенды Lemonade: сравнение

Как это работает технически

Преимущества vLLM перед llama.cpp

Контекст: быстро растущая экосистема

Итог

Источники

Похожие статьи

Oobabooga Text Generation WebUI: обзор

Голосовой AI-ассистент: Whisper + LLM + TTS на своём сервере

Квантование моделей: запуск большой LLM на слабом железе

TradingAgents v0.2.4: виртуальная торговая фирма на LLM

Talkie: LLM из 1930-х, обученный с помощью Claude