llama.cpp: MXFP4, мультимодальность и NVIDIA

llama.cpp получает MXFP4, мультимодальность и глубокую интеграцию с Hugging Face

Проект llama.cpp — самый популярный движок для локального запуска больших языковых моделей (LLM) — выкатил сразу несколько крупных обновлений. Главные из них: нативная поддержка формата MXFP4 для модели gpt-oss совместно с NVIDIA, мультимодальный ввод прямо в llama-server и перенос кэша моделей в стандартную директорию Hugging Face.

MXFP4 и коллаборация с NVIDIA

Модель gpt-oss теперь полностью поддерживается в нативном формате MXFP4 на всех основных бэкендах ggml — CUDA, Vulkan, Metal и CPU — с исключительной производительностью.

Это открывает беспрецедентное качество gpt-oss для всех — от энтузиастов локального AI до предприятий, работающих на периферийном железе или в облаке. Уникальные возможности вывода ggml разблокируют огромное количество сценариев использования для всего спектра потребительского оборудования.

Нативная поддержка MXFP4 на GPU NVIDIA Blackwell даёт до 25% ускорения обработки промптов. Помимо этого, время загрузки модели сократилось на 65% на DGX Spark и на 15% на RTX GPU.

ℹ Что такое MXFP4?

MXFP4 (Microscaling Floating Point 4-bit) — формат квантизации следующего поколения, разработанный совместно NVIDIA и партнёрами. Позволяет запускать огромные модели на потребительском железе с минимальной потерей качества, занимая вдвое меньше VRAM по сравнению с INT8.

«Эра нативно обученных 4-битных локальных моделей официально началась, и ggml продолжит вести её вперёд» — из обсуждения на GitHub llama.cpp

Мультимодальность в llama-server

Поддержка мультимодальности добавлена в PR #12898 и пока является экспериментальной функцией. Она доступна через три эндпоинта: OAI-совместимый чат, эндпоинт завершений и эндпоинт эмбеддингов.

llama.cpp поддерживает мультимодальный ввод через библиотеку libmtmd, которая принимает как изображения, так и аудио. Аудио — пока сильно экспериментальная функция с пониженным качеством.

💡 Быстрый старт с мультимодальностью

Достаточно запустить llama-server с флагом -hf и указать мультимодальную модель — мультимодальный проектор (mmproj) подтянется автоматически:

llama-server -hf ggml-org/gemma-3-4b-it-GGUF

Поддерживаемые мультимодальные модели включают Gemma 3, SmolVLM, Pixtral 12B, Qwen2-VL, Qwen2.5-VL, Mistral Small 3.1 и другие.

Интеграция с Hugging Face и новый кэш

Модели, загружаемые через флаг -hf, теперь хранятся в стандартной директории кэша Hugging Face — это позволяет делиться ими с другими HF-инструментами без дублирования файлов. Hugging Face предоставляет онлайн-инструменты для конвертации, квантизации и хостинга моделей: GGUF-my-repo для конвертации и квантизации, GGUF-my-LoRA для адаптеров, GGUF-editor для редактирования метаданных прямо в браузере.

📝 Примеры команд запуска

# Локальный файл модели
llama-cli -m my_model.gguf

# Прямая загрузка с Hugging Face
llama-cli -hf ggml-org/gemma-3-1b-it-GGUF

# OpenAI-совместимый API-сервер
llama-server -hf ggml-org/gemma-3-1b-it-GGUF

Архитектура и поддерживаемые бэкенды

llama.cpp работает на широчайшем спектре железа без внешних зависимостей. Ниже — актуальная таблица бэкендов:

Бэкенд	Целевое устройство
Metal	Apple Silicon
CUDA	GPU NVIDIA
HIP	GPU AMD
Vulkan	Любой GPU
SYCL	Intel и NVIDIA GPU
MUSA	Moore Threads GPU
CANN	Ascend NPU
OpenCL	Adreno GPU
WebGPU	Любое (в разработке)
RPC	Любое


graph TD
    A[Модель GGUF] --> B{llama.cpp}
    B --> C[CUDA / NVIDIA]
    B --> D[Metal / Apple Silicon]
    B --> E[Vulkan / Любой GPU]
    B --> F[HIP / AMD]
    B --> G[CPU]
    C --> H[llama-server]
    D --> H
    E --> H
    F --> H
    G --> H
    H --> I[OpenAI-совместимый API]
    H --> J[Web UI]
    H --> K[REST API]

Инструменты разработчика: VS Code и Vim/Neovim

Для автодополнения кода (FIM — Fill-In-the-Middle) теперь доступны расширение для VS Code и плагин для Vim/Neovim. Оба проекта опубликованы под организацией ggml-org на GitHub.

AI-фреймворки для PC, включая llama.cpp и Ollama, удвоили популярность за прошедший год, а число разработчиков, работающих с моделями PC-класса, выросло в десять раз.

⚠ Важно для пользователей HF-кэша

Если вы ранее загружали модели через -hf, после обновления они переедут в стандартный кэш Hugging Face (~/.cache/huggingface/hub). Убедитесь, что на диске достаточно места и старые копии не дублируются.

Контекст и значение для отрасли

gpt-oss, обученный с форматом MXFP4, фактически «перепрыгивает» существующие ресурсные барьеры и позволяет запускать SOTA-качество AI на персональных устройствах.

llama.cpp уже охватывает более 30 языков программирования через биндинги (Python, Go, Rust, Java, Swift, Kotlin, Zig и другие) и интегрирован в десятки UI-решений — от LM Studio и Ollama до Jan и KoboldCpp. Проект является основной площадкой для разработки новых функций библиотеки ggml.

Для отрасли это означает одно: локальный запуск топовых моделей уровня gpt-oss на потребительском железе становится реальностью — без облака, без абонентской платы, без компромиссов по качеству.

llama.cpp получает MXFP4, мультимодальность и глубокую интеграцию с Hugging Face

MXFP4 и коллаборация с NVIDIA

Мультимодальность в llama-server

Интеграция с Hugging Face и новый кэш

Архитектура и поддерживаемые бэкенды

Инструменты разработчика: VS Code и Vim/Neovim

Контекст и значение для отрасли

Источники

Похожие статьи

Обзор LM Studio: GUI для локальных LLM-моделей

Квантование моделей: запуск большой LLM на слабом железе

Qwen3 вместо Claude: опыт разработчиков на локальных LLM

NVIDIA SkillSpector: сканер безопасности для навыков ИИ-агентов

NVIDIA Cosmos: платформа мировых моделей для Physical AI