Rapid-MLX: самый быстрый локальный AI на Mac
Обзор Rapid-MLX — open-source движка для запуска LLM на Apple Silicon. В 4.2x быстрее Ollama, 100% tool calling, совместим с Claude Code и Cursor.
Rapid-MLX: самый быстрый локальный AI-движок для Apple Silicon
Rapid-MLX позиционируется как самый быстрый локальный AI-движок для Apple Silicon — в 4.2x быстрее Ollama, с кешированным TTFT 0.08 секунды и 100% поддержкой tool calling. Это open-source проект, созданный разработчиком под псевдонимом raullenchai, и уже активно набирающий популярность в сообществе локального AI.
Что это и для кого
Rapid-MLX — это OpenAI-совместимый локальный сервер инференса для Apple Silicon, построенный на базе фреймворка Apple MLX. Он говорит на том же языке, что и API ChatGPT, поэтому любое приложение, работающее с ChatGPT, может работать с Rapid-MLX — достаточно изменить адрес сервера.
Кому подойдёт:
- Разработчикам на Mac (M1/M2/M3/M4), которым важна скорость инференса
- AI-агентным разработчикам, использующим Claude Code, Cursor, Aider
- Командам, которым нужна локальная замена OpenAI API без утечки данных в облако
- Исследователям, работающим с reasoning-моделями (Qwen3.5, Gemma 4)
Rapid-MLX — это не просто обёртка над mlx-lm, а полноценный production-ready сервер с prompt cache, tool calling и cloud routing.
Ключевые возможности
⚡ Скорость: нативный Metal вместо C++
Rapid-MLX использует фреймворк Apple MLX, созданный специально для унифицированной памяти с нативными Metal-ядрами, именно поэтому он обгоняет движки на C++ (Ollama, llama.cpp) на большинстве моделей.
В тестировании на 18 моделях против Ollama, mlx-lm и llama.cpp — Rapid-MLX оказался быстрейшим на 16 из них.
Реальные цифры из бенчмарков сообщества:
- Qwen3.5-9B: 79 tok/s (Rapid-MLX) vs 33 tok/s (Ollama)
- Qwen3.5-4B на 16GB MacBook Air: 168 tok/s
🧠 Prompt Cache и DeltaNet State Snapshots
Prompt cache обеспечивает быстрые мультиходовые диалоги. Для стандартных трансформеров KV-cache trimming даёт TTFT менее 100ms.
Для гибридных RNN-моделей (Qwen3.5 DeltaNet) используются state snapshots — первая техника, принёсшая prompt cache в нетримируемые архитектуры на MLX. Qwen3.5 использует Gated DeltaNet (75% RNN + 25% KV). Другие движки пересоздают кеш с нуля при каждом запросе — Rapid-MLX делает снапшот RNN-состояния на границе системного промпта и восстанавливает его за ~0.1ms.
🔧 100% Tool Calling
Проект включает 17 парсеров инструментов, prompt cache, разделение reasoning и cloud routing.
Поддерживаются tool/function calling для многих open-weight моделей: Qwen, GLM, MiniMax, Gemma 4, GPT-OSS и других.
🌐 Drop-in замена OpenAI API
Достаточно направить любое приложение на http://localhost:8000/v1 — и оно просто работает.
Нативно работает с Claude Code, Cursor и Aider.
Быстрый старт
Установка одним из трёх способов:
# Homebrew (рекомендуется)
brew install raullenchai/rapid-mlx/rapid-mlx
# pip (требует Python 3.10+)
pip install rapid-mlx
# Автоустановка одной командой
curl -fsSL https://raullenchai.github.io/Rapid-MLX/install.sh | bash
Запуск модели одной командой — при первом запуске модель скачается автоматически (~14 GB), после чего сервер будет готов на http://localhost:8000/v1:
rapid-mlx serve gemma-4-26b
Тест через curl:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"default","messages":[{"role":"user","content":"Say hello"}]}'
Выбор модели по объёму RAM
Список рекомендованных моделей по объёму памяти:
# 16 GB — лёгкая и быстрая
rapid-mlx serve qwen3.5-4b --port 8000
# 24 GB — лучшая маленькая модель
rapid-mlx serve qwen3.5-9b --port 8000
# 32 GB — хорошая coding-модель
rapid-mlx serve qwen3.5-27b --port 8000
# 64 GB — золотая середина
rapid-mlx serve qwen3.5-35b --prefill-step-size 8192 --port 8000
# Для coding-агентов (Claude Code / Cursor)
rapid-mlx serve qwen3-coder --prefill-step-size 8192 --port 8000
# Vision (понимание изображений)
rapid-mlx serve qwen3-vl-4b --mllm --port 8000
Архитектура проекта
graph TD
A[Клиент: Claude Code / Cursor / Aider] -->|OpenAI API| B[Rapid-MLX Server :8000]
B --> C{Routing}
C -->|Локально| D[Apple MLX Engine]
C -->|Опционально| E[Cloud Routing]
D --> F[Metal GPU / Neural Engine]
F --> G[Unified Memory]
B --> H[Prompt Cache]
H -->|KV Trimming| I[Transformer Models]
H -->|State Snapshots| J[DeltaNet RNN Models]
B --> K[Tool Call Parsers x17]
Диагностика и отладка
Встроенная утилита rapid-mlx doctor проверяет все компоненты: Metal GPU, импорты, CLI и inference pipeline:
Rapid-MLX Doctor
============================================================
[metal] OK # Apple Silicon Metal GPU available
[imports] OK # Core modules import cleanly
[cli] OK # CLI commands respond
[model_load] OK # Inference pipeline works
Result: PASS
Известные проблемы
Медленный первый ответ — две возможные причины: (1) модели Qwen3.5 думают перед ответом, добавьте --no-thinking для отключения reasoning; (2) холодный старт при длинных промптах — используйте --prefill-step-size 8192.
Tool calls возвращаются как plain text — укажите правильный --tool-call-parser для вашей модели. Rapid-MLX пытается автоматически восстановить большинство случаев.
Последующие ходы диалога попадают в prompt cache и выполняются в 10–30x быстрее первого.
Тарифы и цены
Rapid-MLX распространяется под лицензией Apache 2.0 — полностью бесплатно и с открытым исходным кодом.
| Вариант | Цена | Ограничения |
|---|---|---|
| Open-source (GitHub/pip) | Бесплатно | Только macOS / Apple Silicon |
| Homebrew tap | Бесплатно | Python не требуется |
| Cloud Routing (внешние API) | По тарифам провайдера | Опционально |
Плюсы и минусы
| ✅ Плюсы | ❌ Минусы |
|---|---|
| В 2–4x быстрее Ollama на Apple Silicon | Только macOS / Apple Silicon — нет Windows/Linux |
| 100% совместим с OpenAI API | Требует Python 3.10+ (macOS поставляется с 3.9) |
| Бесплатно, Apache 2.0 | Один мейнтейнер, проект в статусе Beta |
| 17 парсеров для tool calling | Модели скачиваются только из HuggingFace MLX-формата |
| Нативный prompt cache (DeltaNet snapshots) | Нет GUI-интерфейса |
| Работает с Claude Code, Cursor, Aider, Dify | Vision-поддержка требует отдельной установки |
Встроенная диагностика doctor | Холодный старт на длинных промптах |
Сравнение с альтернативами
| Параметр | Rapid-MLX | Ollama | LM Studio |
|---|---|---|---|
| Платформа | macOS (Apple Silicon) | Windows / Linux / macOS | Windows / Linux / macOS |
| Скорость на Apple Silicon | ⚡⚡⚡ Лучшая | ⚡ (с MLX backend — лучше) | ⚡⚡ Хорошая |
| OpenAI API | ✅ | ✅ | ✅ |
| Tool Calling | ✅ 17 парсеров | ⚠️ Частично | ⚠️ Ограниченно |
| Prompt Cache | ✅ (DeltaNet snapshots) | ⚠️ Prefix reuse | ✅ |
| GUI | ❌ CLI only | ❌ CLI only | ✅ |
| Лицензия | Apache 2.0 | MIT | Проприетарная |
| Reasoning-модели | ✅ | ⚠️ | ⚠️ |
| Vision | ✅ (доп. пакет) | ✅ | ✅ |
| Поддержка сообщества | Растущая | Большая | Средняя |
Начиная с Ollama 0.19 (март 2026), Ollama добавил экспериментальный MLX-бекенд для Apple Silicon Mac с 32 GB+ памяти — когда он включён, Ollama обходит llama.cpp и запускает инференс напрямую через MLX. Тем не менее Rapid-MLX по-прежнему превосходит его по функциям tool calling и prompt cache.
http://localhost:8000/v1. Нативные tool calling и reasoning полностью поддерживаются в агентных нодах Dify.Вердикт
Rapid-MLX — это лучший выбор для разработчика на Mac, которому нужен максимум скорости, полноценный tool calling и совместимость с современными AI-агентными инструментами (Claude Code, Cursor, Aider). Проект технически продуман: DeltaNet state snapshots — это действительно инновационное решение для RNN-архитектур.
Главные ограничения — только Apple Silicon и статус Beta с одним мейнтейнером. Но темп разработки высокий (релиз v0.5.10 уже доступен на PyPI), сообщество растёт.
Если у вас Mac с M1–M4 и вы хотите локальный AI без компромиссов по скорости — Rapid-MLX обязателен к попытке.
Рейтинг: 8.5 / 10
| Критерий | Оценка |
|---|---|
| Скорость инференса | 10/10 |
| Простота установки | 8/10 |
| Tool Calling | 9/10 |
| Экосистема / совместимость | 8/10 |
| Зрелость проекта | 7/10 |
| Документация | 8/10 |