Rapid-MLX: самый быстрый локальный AI-движок для Apple Silicon

Rapid-MLX позиционируется как самый быстрый локальный AI-движок для Apple Silicon — в 4.2x быстрее Ollama, с кешированным TTFT 0.08 секунды и 100% поддержкой tool calling. Это open-source проект, созданный разработчиком под псевдонимом raullenchai, и уже активно набирающий популярность в сообществе локального AI.

ℹ Что такое MLX?
Apple MLX — это фреймворк для машинного обучения, разработанный Apple специально для архитектуры унифицированной памяти Apple Silicon. Он использует нативные Metal-ядра и является прямым конкурентом PyTorch для Mac.

Что это и для кого

Rapid-MLX — это OpenAI-совместимый локальный сервер инференса для Apple Silicon, построенный на базе фреймворка Apple MLX. Он говорит на том же языке, что и API ChatGPT, поэтому любое приложение, работающее с ChatGPT, может работать с Rapid-MLX — достаточно изменить адрес сервера.

Кому подойдёт:

  • Разработчикам на Mac (M1/M2/M3/M4), которым важна скорость инференса
  • AI-агентным разработчикам, использующим Claude Code, Cursor, Aider
  • Командам, которым нужна локальная замена OpenAI API без утечки данных в облако
  • Исследователям, работающим с reasoning-моделями (Qwen3.5, Gemma 4)

Rapid-MLX — это не просто обёртка над mlx-lm, а полноценный production-ready сервер с prompt cache, tool calling и cloud routing.


Ключевые возможности

⚡ Скорость: нативный Metal вместо C++

Rapid-MLX использует фреймворк Apple MLX, созданный специально для унифицированной памяти с нативными Metal-ядрами, именно поэтому он обгоняет движки на C++ (Ollama, llama.cpp) на большинстве моделей.

В тестировании на 18 моделях против Ollama, mlx-lm и llama.cpp — Rapid-MLX оказался быстрейшим на 16 из них.

Реальные цифры из бенчмарков сообщества:

  • Qwen3.5-9B: 79 tok/s (Rapid-MLX) vs 33 tok/s (Ollama)
  • Qwen3.5-4B на 16GB MacBook Air: 168 tok/s

🧠 Prompt Cache и DeltaNet State Snapshots

Prompt cache обеспечивает быстрые мультиходовые диалоги. Для стандартных трансформеров KV-cache trimming даёт TTFT менее 100ms.

Для гибридных RNN-моделей (Qwen3.5 DeltaNet) используются state snapshots — первая техника, принёсшая prompt cache в нетримируемые архитектуры на MLX. Qwen3.5 использует Gated DeltaNet (75% RNN + 25% KV). Другие движки пересоздают кеш с нуля при каждом запросе — Rapid-MLX делает снапшот RNN-состояния на границе системного промпта и восстанавливает его за ~0.1ms.

🔧 100% Tool Calling

Проект включает 17 парсеров инструментов, prompt cache, разделение reasoning и cloud routing.

Поддерживаются tool/function calling для многих open-weight моделей: Qwen, GLM, MiniMax, Gemma 4, GPT-OSS и других.

🌐 Drop-in замена OpenAI API

Достаточно направить любое приложение на http://localhost:8000/v1 — и оно просто работает.

Нативно работает с Claude Code, Cursor и Aider.


Быстрый старт

💡 Рекомендованная установка
Используйте Homebrew — это избавит от проблем с версиями Python (macOS поставляется с Python 3.9, а Rapid-MLX требует 3.10+).

Установка одним из трёх способов:

# Homebrew (рекомендуется)
brew install raullenchai/rapid-mlx/rapid-mlx

# pip (требует Python 3.10+)
pip install rapid-mlx

# Автоустановка одной командой
curl -fsSL https://raullenchai.github.io/Rapid-MLX/install.sh | bash

Запуск модели одной командой — при первом запуске модель скачается автоматически (~14 GB), после чего сервер будет готов на http://localhost:8000/v1:

rapid-mlx serve gemma-4-26b

Тест через curl:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","messages":[{"role":"user","content":"Say hello"}]}'

Выбор модели по объёму RAM

Список рекомендованных моделей по объёму памяти:

# 16 GB — лёгкая и быстрая
rapid-mlx serve qwen3.5-4b --port 8000

# 24 GB — лучшая маленькая модель
rapid-mlx serve qwen3.5-9b --port 8000

# 32 GB — хорошая coding-модель
rapid-mlx serve qwen3.5-27b --port 8000

# 64 GB — золотая середина
rapid-mlx serve qwen3.5-35b --prefill-step-size 8192 --port 8000

# Для coding-агентов (Claude Code / Cursor)
rapid-mlx serve qwen3-coder --prefill-step-size 8192 --port 8000

# Vision (понимание изображений)
rapid-mlx serve qwen3-vl-4b --mllm --port 8000

Архитектура проекта


graph TD
    A[Клиент: Claude Code / Cursor / Aider] -->|OpenAI API| B[Rapid-MLX Server :8000]
    B --> C{Routing}
    C -->|Локально| D[Apple MLX Engine]
    C -->|Опционально| E[Cloud Routing]
    D --> F[Metal GPU / Neural Engine]
    F --> G[Unified Memory]
    B --> H[Prompt Cache]
    H -->|KV Trimming| I[Transformer Models]
    H -->|State Snapshots| J[DeltaNet RNN Models]
    B --> K[Tool Call Parsers x17]


Диагностика и отладка

Встроенная утилита rapid-mlx doctor проверяет все компоненты: Metal GPU, импорты, CLI и inference pipeline:

Rapid-MLX Doctor
============================================================
[metal]       OK  # Apple Silicon Metal GPU available
[imports]     OK  # Core modules import cleanly
[cli]         OK  # CLI commands respond
[model_load]  OK  # Inference pipeline works
Result: PASS

Известные проблемы

⚠ Возможные трудности

Медленный первый ответ — две возможные причины: (1) модели Qwen3.5 думают перед ответом, добавьте --no-thinking для отключения reasoning; (2) холодный старт при длинных промптах — используйте --prefill-step-size 8192.

Tool calls возвращаются как plain text — укажите правильный --tool-call-parser для вашей модели. Rapid-MLX пытается автоматически восстановить большинство случаев.

Последующие ходы диалога попадают в prompt cache и выполняются в 10–30x быстрее первого.


Тарифы и цены

Rapid-MLX распространяется под лицензией Apache 2.0 — полностью бесплатно и с открытым исходным кодом.

ВариантЦенаОграничения
Open-source (GitHub/pip)БесплатноТолько macOS / Apple Silicon
Homebrew tapБесплатноPython не требуется
Cloud Routing (внешние API)По тарифам провайдераОпционально

Плюсы и минусы

✅ Плюсы❌ Минусы
В 2–4x быстрее Ollama на Apple SiliconТолько macOS / Apple Silicon — нет Windows/Linux
100% совместим с OpenAI APIТребует Python 3.10+ (macOS поставляется с 3.9)
Бесплатно, Apache 2.0Один мейнтейнер, проект в статусе Beta
17 парсеров для tool callingМодели скачиваются только из HuggingFace MLX-формата
Нативный prompt cache (DeltaNet snapshots)Нет GUI-интерфейса
Работает с Claude Code, Cursor, Aider, DifyVision-поддержка требует отдельной установки
Встроенная диагностика doctorХолодный старт на длинных промптах

Сравнение с альтернативами

ПараметрRapid-MLXOllamaLM Studio
ПлатформаmacOS (Apple Silicon)Windows / Linux / macOSWindows / Linux / macOS
Скорость на Apple Silicon⚡⚡⚡ Лучшая⚡ (с MLX backend — лучше)⚡⚡ Хорошая
OpenAI API
Tool Calling✅ 17 парсеров⚠️ Частично⚠️ Ограниченно
Prompt Cache✅ (DeltaNet snapshots)⚠️ Prefix reuse
GUI❌ CLI only❌ CLI only
ЛицензияApache 2.0MITПроприетарная
Reasoning-модели⚠️⚠️
Vision✅ (доп. пакет)
Поддержка сообществаРастущаяБольшаяСредняя

Начиная с Ollama 0.19 (март 2026), Ollama добавил экспериментальный MLX-бекенд для Apple Silicon Mac с 32 GB+ памяти — когда он включён, Ollama обходит llama.cpp и запускает инференс напрямую через MLX. Тем не менее Rapid-MLX по-прежнему превосходит его по функциям tool calling и prompt cache.

📝 Интеграция с Dify
Rapid-MLX легко подключается к self-hosted Dify на Mac: в настройках Model Providers выберите OpenAI-API-compatible и укажите http://localhost:8000/v1. Нативные tool calling и reasoning полностью поддерживаются в агентных нодах Dify.

Вердикт

Rapid-MLX — это лучший выбор для разработчика на Mac, которому нужен максимум скорости, полноценный tool calling и совместимость с современными AI-агентными инструментами (Claude Code, Cursor, Aider). Проект технически продуман: DeltaNet state snapshots — это действительно инновационное решение для RNN-архитектур.

Главные ограничения — только Apple Silicon и статус Beta с одним мейнтейнером. Но темп разработки высокий (релиз v0.5.10 уже доступен на PyPI), сообщество растёт.

Если у вас Mac с M1–M4 и вы хотите локальный AI без компромиссов по скорости — Rapid-MLX обязателен к попытке.

Рейтинг: 8.5 / 10

КритерийОценка
Скорость инференса10/10
Простота установки8/10
Tool Calling9/10
Экосистема / совместимость8/10
Зрелость проекта7/10
Документация8/10