MinerU 3.1: open-source парсер документов для LLM стал доступнее и точнее

MinerU официально сменил лицензию с AGPLv3 на собственную MinerU Open Source License на базе Apache 2.0 — это значительно снижает барьер для интеграции как в open-source проекты, так и в коммерческие продукты. Одновременно вышла версия 3.1.0 с новой VLM-моделью и нативной поддержкой всех основных офисных форматов. MinerU — инструмент для конвертации PDF, изображений, DOCX, PPTX и XLSX в машиночитаемые форматы Markdown и JSON для последующего поиска, извлечения и обработки данных.


Что изменилось в версии 3.1.0

Новая VLM-модель

Основная VLM-модель (Vision-Language Model — мультимодальная нейросеть) обновлена до MinerU2.5-Pro-2604-1.2B, что выводит общую точность парсинга на уровень state-of-the-art. Новая модель поддерживает разбор изображений и графиков, слияние обрезанных абзацев, объединение таблиц, разбитых на несколько страниц, и распознавание изображений внутри таблиц.

💡 Совет для разработчиков
Модель MinerU2.5-Pro-2604-1.2B весит всего 1.2B параметров — это позволяет запускать её локально даже без мощного GPU. Проверьте режим pipeline для работы на CPU.

Полная поддержка офисных форматов

Нативный парсинг расширен на PPTX и XLSX — теперь MinerU полностью поддерживает изображения, PDF, DOCX, PPTX и XLSX, обеспечивая сквозной пайплайн обработки документов.

Нативный парсинг DOCX работает в десятки раз быстрее по сравнению со старым подходом (конвертация DOCX → PDF → парсинг), что особенно важно при высоких требованиях к точности и пропускной способности.

Смена лицензии

Переход с AGPLv3 на Apache 2.0 — ключевое изменение для коммерческих команд: теперь MinerU можно встраивать в продукты без ограничений копилефта.

Лицензия сменилась с AGPLv3 на MinerU Open Source License (базируется на Apache 2.0), что существенно упрощает интеграцию в реальные рабочие процессы.


Архитектура и режимы работы


graph TD
    A[Входной документ\nPDF / DOCX / PPTX / XLSX / Image] --> B{Выбор движка}
    B --> C[pipeline\nБыстро, без галлюцинаций, CPU/GPU]
    B --> D[vlm-engine\nВысокая точность, vLLM/LMDeploy]
    B --> E[hybrid-engine\nТочность + нативное извлечение]
    C --> F[Markdown / JSON]
    D --> F
    E --> F
    F --> G[RAG / LLM / Agent]

Backend pipeline набирает 86.2 балла на бенчмарке OmniDocBench (v1.5) — это выше предыдущей флагманской VLM-модели MinerU2.0-2505-0.9B. При этом потребление ресурсов остаётся минимальным: инференс работает в том числе в среде без GPU, только на CPU.


Интеграции и экосистема

MinerU поддерживает двойной движок VLM+OCR, 109 языков, MCP Server (протокол взаимодействия с AI-агентами), нативную интеграцию с LangChain, Dify, FastGPT и более 10 отечественных AI-чипов.

СценарийРешение
AI Coding ToolsMCP Server — Cursor, Claude Desktop, Windsurf
RAG-фреймворкиLangChain, LlamaIndex, RAGFlow, Dify, FastGPT
РазработкаPython / Go / TypeScript SDK, CLI, REST API, Docker
Без кодаmineru.net, Gradio WebUI, десктопный клиент
ℹ Поддерживаемые чипы
MinerU работает на отечественных AI-чипах: Ascend, Cambricon, Enflame, MetaX, Moore Threads, Kunlunxin, Iluvatar, Hygon, Biren, T-Head.

Крупные улучшения в версии 3.0.0 (март 2026)

Через механизм скользящего окна и потоковую запись на диск парсинг сверхдлинных документов перешёл из категории «нужно вручную разбивать» в «стабильно, масштабируемо, готово для продакшена».

С помощью mineru-router и нового API/CLI-фреймворка MinerU поддерживает развёртывание на нескольких GPU в один клик, единый вход для нескольких сервисов и автоматическую балансировку нагрузки.

API получил новый асинхронный эндпоинт POST /tasks для отправки заданий, запроса статуса и получения результатов — при сохранении синхронного POST /file_parse для обратной совместимости.

⚠ Совместимость
Решены проблемы совместимости с torch >= 2.8; базовый образ обновлён до vllm0.11.2 + torch2.9.0. Если вы используете старые версии Docker-образов MinerU — обновитесь перед развёртыванием.

Быстрый старт

# Установка через uv (рекомендуется)
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"

# Запуск парсинга (GPU)
mineru -p <input_path> -o <output_path>

# Запуск на CPU (pipeline backend)
mineru -p <input_path> -o <output_path> -b pipeline

Значение для отрасли

По данным бенчмарка OmniDocBench, pipeline-инструменты вроде MinerU по-прежнему занимают первые позиции, что говорит о том, что специализированные архитектуры остаются ценными для структурированного понимания документов.

MinerU родился в процессе предобучения InternLM и изначально создавался для решения проблем конвертации символов в научной литературе — сегодня это один из ключевых open-source инструментов эпохи больших моделей.

Смена лицензии на Apache 2.0 в совокупности с поддержкой всех основных офисных форматов и новой точной VLM-моделью делает MinerU 3.1 практичным выбором для построения RAG-пайплайнов и агентных систем в корпоративной среде — без компромисса между качеством и простотой развёртывания.