MinerU 3.1: парсер документов для LLM перешёл на Apache 2.0
MinerU 3.1 получил новую лицензию Apache 2.0, модель VLM MinerU2.5-Pro-2604-1.2B и нативную поддержку PPTX/XLSX. Полный обзор обновлений.
MinerU 3.1: open-source парсер документов для LLM стал доступнее и точнее
MinerU официально сменил лицензию с AGPLv3 на собственную MinerU Open Source License на базе Apache 2.0 — это значительно снижает барьер для интеграции как в open-source проекты, так и в коммерческие продукты. Одновременно вышла версия 3.1.0 с новой VLM-моделью и нативной поддержкой всех основных офисных форматов. MinerU — инструмент для конвертации PDF, изображений, DOCX, PPTX и XLSX в машиночитаемые форматы Markdown и JSON для последующего поиска, извлечения и обработки данных.
Что изменилось в версии 3.1.0
Новая VLM-модель
Основная VLM-модель (Vision-Language Model — мультимодальная нейросеть) обновлена до MinerU2.5-Pro-2604-1.2B, что выводит общую точность парсинга на уровень state-of-the-art. Новая модель поддерживает разбор изображений и графиков, слияние обрезанных абзацев, объединение таблиц, разбитых на несколько страниц, и распознавание изображений внутри таблиц.
pipeline для работы на CPU.Полная поддержка офисных форматов
Нативный парсинг расширен на PPTX и XLSX — теперь MinerU полностью поддерживает изображения, PDF, DOCX, PPTX и XLSX, обеспечивая сквозной пайплайн обработки документов.
Нативный парсинг DOCX работает в десятки раз быстрее по сравнению со старым подходом (конвертация DOCX → PDF → парсинг), что особенно важно при высоких требованиях к точности и пропускной способности.
Смена лицензии
Переход с AGPLv3 на Apache 2.0 — ключевое изменение для коммерческих команд: теперь MinerU можно встраивать в продукты без ограничений копилефта.
Лицензия сменилась с AGPLv3 на MinerU Open Source License (базируется на Apache 2.0), что существенно упрощает интеграцию в реальные рабочие процессы.
Архитектура и режимы работы
graph TD
A[Входной документ\nPDF / DOCX / PPTX / XLSX / Image] --> B{Выбор движка}
B --> C[pipeline\nБыстро, без галлюцинаций, CPU/GPU]
B --> D[vlm-engine\nВысокая точность, vLLM/LMDeploy]
B --> E[hybrid-engine\nТочность + нативное извлечение]
C --> F[Markdown / JSON]
D --> F
E --> F
F --> G[RAG / LLM / Agent]
Backend pipeline набирает 86.2 балла на бенчмарке OmniDocBench (v1.5) — это выше предыдущей флагманской VLM-модели MinerU2.0-2505-0.9B. При этом потребление ресурсов остаётся минимальным: инференс работает в том числе в среде без GPU, только на CPU.
Интеграции и экосистема
MinerU поддерживает двойной движок VLM+OCR, 109 языков, MCP Server (протокол взаимодействия с AI-агентами), нативную интеграцию с LangChain, Dify, FastGPT и более 10 отечественных AI-чипов.
| Сценарий | Решение |
|---|---|
| AI Coding Tools | MCP Server — Cursor, Claude Desktop, Windsurf |
| RAG-фреймворки | LangChain, LlamaIndex, RAGFlow, Dify, FastGPT |
| Разработка | Python / Go / TypeScript SDK, CLI, REST API, Docker |
| Без кода | mineru.net, Gradio WebUI, десктопный клиент |
Крупные улучшения в версии 3.0.0 (март 2026)
Через механизм скользящего окна и потоковую запись на диск парсинг сверхдлинных документов перешёл из категории «нужно вручную разбивать» в «стабильно, масштабируемо, готово для продакшена».
С помощью mineru-router и нового API/CLI-фреймворка MinerU поддерживает развёртывание на нескольких GPU в один клик, единый вход для нескольких сервисов и автоматическую балансировку нагрузки.
API получил новый асинхронный эндпоинт POST /tasks для отправки заданий, запроса статуса и получения результатов — при сохранении синхронного POST /file_parse для обратной совместимости.
Быстрый старт
# Установка через uv (рекомендуется)
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"
# Запуск парсинга (GPU)
mineru -p <input_path> -o <output_path>
# Запуск на CPU (pipeline backend)
mineru -p <input_path> -o <output_path> -b pipeline
Значение для отрасли
По данным бенчмарка OmniDocBench, pipeline-инструменты вроде MinerU по-прежнему занимают первые позиции, что говорит о том, что специализированные архитектуры остаются ценными для структурированного понимания документов.
MinerU родился в процессе предобучения InternLM и изначально создавался для решения проблем конвертации символов в научной литературе — сегодня это один из ключевых open-source инструментов эпохи больших моделей.
Смена лицензии на Apache 2.0 в совокупности с поддержкой всех основных офисных форматов и новой точной VLM-моделью делает MinerU 3.1 практичным выбором для построения RAG-пайплайнов и агентных систем в корпоративной среде — без компромисса между качеством и простотой развёртывания.