llama.cpp: MXFP4, мультимодальность и NVIDIA
llama.cpp получил поддержку gpt-oss с нативным MXFP4, мультимодальный llama-server и интеграцию с Hugging Face. Обзор всех ключевых обновлений.
llama.cpp получает MXFP4, мультимодальность и глубокую интеграцию с Hugging Face
Проект llama.cpp — самый популярный движок для локального запуска больших языковых моделей (LLM) — выкатил сразу несколько крупных обновлений. Главные из них: нативная поддержка формата MXFP4 для модели gpt-oss совместно с NVIDIA, мультимодальный ввод прямо в llama-server и перенос кэша моделей в стандартную директорию Hugging Face.
MXFP4 и коллаборация с NVIDIA
Модель gpt-oss теперь полностью поддерживается в нативном формате MXFP4 на всех основных бэкендах ggml — CUDA, Vulkan, Metal и CPU — с исключительной производительностью.
Это открывает беспрецедентное качество gpt-oss для всех — от энтузиастов локального AI до предприятий, работающих на периферийном железе или в облаке. Уникальные возможности вывода ggml разблокируют огромное количество сценариев использования для всего спектра потребительского оборудования.
Нативная поддержка MXFP4 на GPU NVIDIA Blackwell даёт до 25% ускорения обработки промптов. Помимо этого, время загрузки модели сократилось на 65% на DGX Spark и на 15% на RTX GPU.
«Эра нативно обученных 4-битных локальных моделей официально началась, и ggml продолжит вести её вперёд» — из обсуждения на GitHub llama.cpp
Мультимодальность в llama-server
Поддержка мультимодальности добавлена в PR #12898 и пока является экспериментальной функцией. Она доступна через три эндпоинта: OAI-совместимый чат, эндпоинт завершений и эндпоинт эмбеддингов.
llama.cpp поддерживает мультимодальный ввод через библиотеку libmtmd, которая принимает как изображения, так и аудио. Аудио — пока сильно экспериментальная функция с пониженным качеством.
Достаточно запустить llama-server с флагом -hf и указать мультимодальную модель — мультимодальный проектор (mmproj) подтянется автоматически:
llama-server -hf ggml-org/gemma-3-4b-it-GGUF
Поддерживаемые мультимодальные модели включают Gemma 3, SmolVLM, Pixtral 12B, Qwen2-VL, Qwen2.5-VL, Mistral Small 3.1 и другие.
Интеграция с Hugging Face и новый кэш
Модели, загружаемые через флаг -hf, теперь хранятся в стандартной директории кэша Hugging Face — это позволяет делиться ими с другими HF-инструментами без дублирования файлов. Hugging Face предоставляет онлайн-инструменты для конвертации, квантизации и хостинга моделей: GGUF-my-repo для конвертации и квантизации, GGUF-my-LoRA для адаптеров, GGUF-editor для редактирования метаданных прямо в браузере.
# Локальный файл модели
llama-cli -m my_model.gguf
# Прямая загрузка с Hugging Face
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF
# OpenAI-совместимый API-сервер
llama-server -hf ggml-org/gemma-3-1b-it-GGUF
Архитектура и поддерживаемые бэкенды
llama.cpp работает на широчайшем спектре железа без внешних зависимостей. Ниже — актуальная таблица бэкендов:
| Бэкенд | Целевое устройство |
|---|---|
| Metal | Apple Silicon |
| CUDA | GPU NVIDIA |
| HIP | GPU AMD |
| Vulkan | Любой GPU |
| SYCL | Intel и NVIDIA GPU |
| MUSA | Moore Threads GPU |
| CANN | Ascend NPU |
| OpenCL | Adreno GPU |
| WebGPU | Любое (в разработке) |
| RPC | Любое |
graph TD
A[Модель GGUF] --> B{llama.cpp}
B --> C[CUDA / NVIDIA]
B --> D[Metal / Apple Silicon]
B --> E[Vulkan / Любой GPU]
B --> F[HIP / AMD]
B --> G[CPU]
C --> H[llama-server]
D --> H
E --> H
F --> H
G --> H
H --> I[OpenAI-совместимый API]
H --> J[Web UI]
H --> K[REST API]
Инструменты разработчика: VS Code и Vim/Neovim
Для автодополнения кода (FIM — Fill-In-the-Middle) теперь доступны расширение для VS Code и плагин для Vim/Neovim. Оба проекта опубликованы под организацией ggml-org на GitHub.
AI-фреймворки для PC, включая llama.cpp и Ollama, удвоили популярность за прошедший год, а число разработчиков, работающих с моделями PC-класса, выросло в десять раз.
-hf, после обновления они переедут в стандартный кэш Hugging Face (~/.cache/huggingface/hub). Убедитесь, что на диске достаточно места и старые копии не дублируются.Контекст и значение для отрасли
gpt-oss, обученный с форматом MXFP4, фактически «перепрыгивает» существующие ресурсные барьеры и позволяет запускать SOTA-качество AI на персональных устройствах.
llama.cpp уже охватывает более 30 языков программирования через биндинги (Python, Go, Rust, Java, Swift, Kotlin, Zig и другие) и интегрирован в десятки UI-решений — от LM Studio и Ollama до Jan и KoboldCpp. Проект является основной площадкой для разработки новых функций библиотеки ggml.
Для отрасли это означает одно: локальный запуск топовых моделей уровня gpt-oss на потребительском железе становится реальностью — без облака, без абонентской платы, без компромиссов по качеству.