Rapid-MLX: самый быстрый локальный AI-движок для Apple Silicon

Rapid-MLX позиционируется как самый быстрый локальный AI-движок для Apple Silicon — в 4.2x быстрее Ollama, с кешированным TTFT 0.08 секунды и 100% поддержкой tool calling. Это open-source проект, созданный разработчиком под псевдонимом raullenchai, и уже активно набирающий популярность в сообществе локального AI.

ℹ Что такое MLX?

Apple MLX — это фреймворк для машинного обучения, разработанный Apple специально для архитектуры унифицированной памяти Apple Silicon. Он использует нативные Metal-ядра и является прямым конкурентом PyTorch для Mac.

Что это и для кого

Rapid-MLX — это OpenAI-совместимый локальный сервер инференса для Apple Silicon, построенный на базе фреймворка Apple MLX. Он говорит на том же языке, что и API ChatGPT, поэтому любое приложение, работающее с ChatGPT, может работать с Rapid-MLX — достаточно изменить адрес сервера.

Кому подойдёт:

Разработчикам на Mac (M1/M2/M3/M4), которым важна скорость инференса
AI-агентным разработчикам, использующим Claude Code, Cursor, Aider
Командам, которым нужна локальная замена OpenAI API без утечки данных в облако
Исследователям, работающим с reasoning-моделями (Qwen3.5, Gemma 4)

Rapid-MLX — это не просто обёртка над mlx-lm, а полноценный production-ready сервер с prompt cache, tool calling и cloud routing.

Ключевые возможности

⚡ Скорость: нативный Metal вместо C++

Rapid-MLX использует фреймворк Apple MLX, созданный специально для унифицированной памяти с нативными Metal-ядрами, именно поэтому он обгоняет движки на C++ (Ollama, llama.cpp) на большинстве моделей.

В тестировании на 18 моделях против Ollama, mlx-lm и llama.cpp — Rapid-MLX оказался быстрейшим на 16 из них.

Реальные цифры из бенчмарков сообщества:

Qwen3.5-9B: 79 tok/s (Rapid-MLX) vs 33 tok/s (Ollama)
Qwen3.5-4B на 16GB MacBook Air: 168 tok/s

🧠 Prompt Cache и DeltaNet State Snapshots

Prompt cache обеспечивает быстрые мультиходовые диалоги. Для стандартных трансформеров KV-cache trimming даёт TTFT менее 100ms.

Для гибридных RNN-моделей (Qwen3.5 DeltaNet) используются state snapshots — первая техника, принёсшая prompt cache в нетримируемые архитектуры на MLX. Qwen3.5 использует Gated DeltaNet (75% RNN + 25% KV). Другие движки пересоздают кеш с нуля при каждом запросе — Rapid-MLX делает снапшот RNN-состояния на границе системного промпта и восстанавливает его за ~0.1ms.

🔧 100% Tool Calling

Проект включает 17 парсеров инструментов, prompt cache, разделение reasoning и cloud routing.

Поддерживаются tool/function calling для многих open-weight моделей: Qwen, GLM, MiniMax, Gemma 4, GPT-OSS и других.

🌐 Drop-in замена OpenAI API

Достаточно направить любое приложение на http://localhost:8000/v1 — и оно просто работает.

Нативно работает с Claude Code, Cursor и Aider.

Быстрый старт

💡 Рекомендованная установка

Используйте Homebrew — это избавит от проблем с версиями Python (macOS поставляется с Python 3.9, а Rapid-MLX требует 3.10+).

Установка одним из трёх способов:

# Homebrew (рекомендуется)
brew install raullenchai/rapid-mlx/rapid-mlx

# pip (требует Python 3.10+)
pip install rapid-mlx

# Автоустановка одной командой
curl -fsSL https://raullenchai.github.io/Rapid-MLX/install.sh | bash

Запуск модели одной командой — при первом запуске модель скачается автоматически (~14 GB), после чего сервер будет готов на http://localhost:8000/v1:

rapid-mlx serve gemma-4-26b

Тест через curl:

curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"default","messages":[{"role":"user","content":"Say hello"}]}'

Выбор модели по объёму RAM

Список рекомендованных моделей по объёму памяти:

# 16 GB — лёгкая и быстрая
rapid-mlx serve qwen3.5-4b --port 8000

# 24 GB — лучшая маленькая модель
rapid-mlx serve qwen3.5-9b --port 8000

# 32 GB — хорошая coding-модель
rapid-mlx serve qwen3.5-27b --port 8000

# 64 GB — золотая середина
rapid-mlx serve qwen3.5-35b --prefill-step-size 8192 --port 8000

# Для coding-агентов (Claude Code / Cursor)
rapid-mlx serve qwen3-coder --prefill-step-size 8192 --port 8000

# Vision (понимание изображений)
rapid-mlx serve qwen3-vl-4b --mllm --port 8000

Архитектура проекта


graph TD
    A[Клиент: Claude Code / Cursor / Aider] -->|OpenAI API| B[Rapid-MLX Server :8000]
    B --> C{Routing}
    C -->|Локально| D[Apple MLX Engine]
    C -->|Опционально| E[Cloud Routing]
    D --> F[Metal GPU / Neural Engine]
    F --> G[Unified Memory]
    B --> H[Prompt Cache]
    H -->|KV Trimming| I[Transformer Models]
    H -->|State Snapshots| J[DeltaNet RNN Models]
    B --> K[Tool Call Parsers x17]

Диагностика и отладка

Встроенная утилита rapid-mlx doctor проверяет все компоненты: Metal GPU, импорты, CLI и inference pipeline:

Rapid-MLX Doctor
============================================================
[metal]       OK  # Apple Silicon Metal GPU available
[imports]     OK  # Core modules import cleanly
[cli]         OK  # CLI commands respond
[model_load]  OK  # Inference pipeline works
Result: PASS

Известные проблемы

⚠ Возможные трудности

Медленный первый ответ — две возможные причины: (1) модели Qwen3.5 думают перед ответом, добавьте --no-thinking для отключения reasoning; (2) холодный старт при длинных промптах — используйте --prefill-step-size 8192.

Tool calls возвращаются как plain text — укажите правильный --tool-call-parser для вашей модели. Rapid-MLX пытается автоматически восстановить большинство случаев.

Последующие ходы диалога попадают в prompt cache и выполняются в 10–30x быстрее первого.

Тарифы и цены

Rapid-MLX распространяется под лицензией Apache 2.0 — полностью бесплатно и с открытым исходным кодом.

Вариант	Цена	Ограничения
Open-source (GitHub/pip)	Бесплатно	Только macOS / Apple Silicon
Homebrew tap	Бесплатно	Python не требуется
Cloud Routing (внешние API)	По тарифам провайдера	Опционально

Плюсы и минусы

✅ Плюсы	❌ Минусы
В 2–4x быстрее Ollama на Apple Silicon	Только macOS / Apple Silicon — нет Windows/Linux
100% совместим с OpenAI API	Требует Python 3.10+ (macOS поставляется с 3.9)
Бесплатно, Apache 2.0	Один мейнтейнер, проект в статусе Beta
17 парсеров для tool calling	Модели скачиваются только из HuggingFace MLX-формата
Нативный prompt cache (DeltaNet snapshots)	Нет GUI-интерфейса
Работает с Claude Code, Cursor, Aider, Dify	Vision-поддержка требует отдельной установки
Встроенная диагностика `doctor`	Холодный старт на длинных промптах

Сравнение с альтернативами

Параметр	Rapid-MLX	Ollama	LM Studio
Платформа	macOS (Apple Silicon)	Windows / Linux / macOS	Windows / Linux / macOS
Скорость на Apple Silicon	⚡⚡⚡ Лучшая	⚡ (с MLX backend — лучше)	⚡⚡ Хорошая
OpenAI API	✅	✅	✅
Tool Calling	✅ 17 парсеров	⚠️ Частично	⚠️ Ограниченно
Prompt Cache	✅ (DeltaNet snapshots)	⚠️ Prefix reuse	✅
GUI	❌ CLI only	❌ CLI only	✅
Лицензия	Apache 2.0	MIT	Проприетарная
Reasoning-модели	✅	⚠️	⚠️
Vision	✅ (доп. пакет)	✅	✅
Поддержка сообщества	Растущая	Большая	Средняя

Начиная с Ollama 0.19 (март 2026), Ollama добавил экспериментальный MLX-бекенд для Apple Silicon Mac с 32 GB+ памяти — когда он включён, Ollama обходит llama.cpp и запускает инференс напрямую через MLX. Тем не менее Rapid-MLX по-прежнему превосходит его по функциям tool calling и prompt cache.

📝 Интеграция с Dify

Rapid-MLX легко подключается к self-hosted Dify на Mac: в настройках Model Providers выберите OpenAI-API-compatible и укажите http://localhost:8000/v1. Нативные tool calling и reasoning полностью поддерживаются в агентных нодах Dify.

Вердикт

Rapid-MLX — это лучший выбор для разработчика на Mac, которому нужен максимум скорости, полноценный tool calling и совместимость с современными AI-агентными инструментами (Claude Code, Cursor, Aider). Проект технически продуман: DeltaNet state snapshots — это действительно инновационное решение для RNN-архитектур.

Главные ограничения — только Apple Silicon и статус Beta с одним мейнтейнером. Но темп разработки высокий (релиз v0.5.10 уже доступен на PyPI), сообщество растёт.

Если у вас Mac с M1–M4 и вы хотите локальный AI без компромиссов по скорости — Rapid-MLX обязателен к попытке.

Рейтинг: 8.5 / 10

Критерий	Оценка
Скорость инференса	10/10
Простота установки	8/10
Tool Calling	9/10
Экосистема / совместимость	8/10
Зрелость проекта	7/10
Документация	8/10

Rapid-MLX: самый быстрый локальный AI на Mac

Rapid-MLX: самый быстрый локальный AI-движок для Apple Silicon

Что это и для кого

Ключевые возможности

⚡ Скорость: нативный Metal вместо C++

🧠 Prompt Cache и DeltaNet State Snapshots

🔧 100% Tool Calling

🌐 Drop-in замена OpenAI API

Быстрый старт

Выбор модели по объёму RAM

Архитектура проекта

Диагностика и отладка

Известные проблемы

Тарифы и цены

Плюсы и минусы

Сравнение с альтернативами

Вердикт

Рейтинг: 8.5 / 10

Источники

Rapid-MLX: самый быстрый локальный AI-движок для Apple Silicon

Что это и для кого

Ключевые возможности

⚡ Скорость: нативный Metal вместо C++

🧠 Prompt Cache и DeltaNet State Snapshots

🔧 100% Tool Calling

🌐 Drop-in замена OpenAI API

Быстрый старт

Выбор модели по объёму RAM

Архитектура проекта

Диагностика и отладка

Известные проблемы

Тарифы и цены

Плюсы и минусы

Сравнение с альтернативами

Вердикт

Рейтинг: 8.5 / 10

Источники

Похожие статьи

Local Deep Research: ~95% на SimpleQA без облака

anthropics/skills: обзор Agent Skills для Claude

Multica: управляй AI-агентами как командой

Обзор Ollama: запускаем LLM локально

Open WebUI: мощная self-hosted платформа для локального AI