LiteParse: быстрый open-source парсер документов
LiteParse от LlamaIndex — бесплатный локальный парсер PDF и офисных форматов для AI-агентов. Обзор возможностей, сравнение с альтернативами, плюсы и минусы.
LiteParse: быстрый open-source парсер документов от LlamaIndex
LlamaIndex создал LiteParse — бесплатный, не требующий GPU, open-source парсер документов, спроектированный для сохранения пространственной структуры таблиц и диаграмм перед передачей данных AI-агенту.
До появления LiteParse не существовало достойного среднего пути: чего-то одновременно быстрого, локального, учитывающего компоновку и созданного специально для потребления LLM. Именно этот пробел и заполнил LiteParse — CLI-инструмент и TypeScript-библиотека от LlamaIndex.
Что это и для кого
LiteParse — самостоятельный open-source инструмент парсинга PDF, сфокусированный исключительно на быстром и лёгком разборе документов. Он предоставляет высококачественный пространственный парсинг текста с ограничивающими рамками (bounding boxes), без проприетарных LLM-функций и облачных зависимостей. Всё выполняется локально.
Каждый AI-агент должен читать документы — будь то ассистент по коду, извлекающий контекст из PDF-спецификации, исследовательский агент, анализирующий пачку статей, или корпоративный workflow, обрабатывающий счета. Парсинг документов — незаметная, но необходимая «сантехника» агентного AI.
Целевая аудитория:
- Разработчики, строящие RAG-пайплайны и AI-агентов
- Команды, работающие в средах без интернета или с требованиями конфиденциальности
- Backend/ML-инженеры, желающие избежать затрат на API за каждый документ
- Исследователи и стартапы, которым нужен бесплатный локальный парсинг
Ключевые возможности
1. Пространственный парсинг с bounding boxes
LiteParse обеспечивает высококачественный пространственный парсинг текста с ограничивающими рамками, без проприетарных LLM-функций и облачных зависимостей. Это означает, что таблицы, многоколоночные макеты и диаграммы сохраняют свою структуру — агент получает чистые данные, а не хаотичный набор символов.
2. Поддержка множества форматов
LiteParse поддерживает автоматическую конвертацию различных форматов документов в PDF перед парсингом, что делает его уникальным по сравнению с инструментами, работающими только с PDF.
Поддерживаемые форматы:
- Офисные документы: DOCX, XLSX, PPTX (через LibreOffice)
- Изображения: JPG, PNG, GIF, BMP, TIFF, WEBP, SVG (через ImageMagick)
- PDF: нативная поддержка
3. OCR с гибкими движками
По умолчанию используется Tesseract. Для повышения точности или производительности можно подключить HTTP OCR-сервер. Предусмотрены готовые обёртки для популярных OCR-движков; можно интегрировать любой OCR-сервис через спецификацию LiteParse OCR API.
PaddleOCR поддерживает более 80 языков с отличной поддержкой CJK (китайский, японский, корейский).
4. Скриншоты страниц
LiteParse создан для быстрого извлечения текста и предоставления скриншотов для более глубокого мультимодального анализа. Это позволяет агентам сначала быстро сканировать текст, а затем при необходимости углубляться в визуальный анализ конкретных страниц.
5. Пакетный режим
Команда lit batch-parse позволяет обрабатывать целые директории документов с рекурсивным обходом поддиректорий, фильтрацией по расширению и параллельным OCR-рабочими потоками.
6. WebAssembly-поддержка
Существует WASM-версия (@llamaindex/liteparse-wasm) для быстрого лёгкого парсинга документов прямо в браузере — никакого сервера не требуется.
7. Python и JS/TS API
Доступна Python-обёртка для LiteParse — лёгкий локальный парсинг документов с опциональным OCR. Это обёртка вокруг Node.js CLI LiteParse.
from liteparse import LiteParse
parser = LiteParse()
# Парсинг одного документа
result = parser.parse("document.pdf")
print(result.text)
# Доступ к структурированным данным
for page in result.pages:
print(f"Страница {page.pageNum}: {len(page.textItems)} текстовых элементов")
// npm i @llamaindex/liteparse
import { LiteParse } from '@llamaindex/liteparse';
const parser = new LiteParse({ ocrEnabled: true });
const result = await parser.parse('document.pdf');
console.log(result.text);
LiteParse можно добавить как agent skill одной командой:
npx skills add run-llama/llamaparse-agent-skills --skill liteparse
Это идеально для интеграции в MCP-серверы и LlamaIndex-агентов.
Архитектура и принцип работы
graph TD
A[Входной документ] --> B{Формат?}
B -->|PDF| C[PDF.js: извлечение текста]
B -->|DOCX/XLSX/PPTX| D[LibreOffice → PDF]
B -->|Изображение| E[ImageMagick → PDF]
D --> C
E --> C
C --> F[Grid Projection: пространственный анализ]
F --> G{OCR нужен?}
G -->|Да| H[Tesseract / PaddleOCR / EasyOCR]
G -->|Нет| I[Результат]
H --> I
I --> J[Текст + Bounding Boxes]
I --> K[JSON / Plain Text]
I --> L[Скриншоты страниц]
Параметры CLI
# Базовый парсинг
lit parse document.pdf
# С OCR и выводом в JSON
lit parse document.pdf --format json --ocr-language eng
# Конкретные страницы
lit parse document.pdf --target-pages "1-5,10,15-20"
# Пакетная обработка директории
lit batch-parse ./docs ./output --recursive --extension .pdf
# Скриншоты страниц
lit screenshot document.pdf --target-pages "1,3,5" --dpi 300 -o ./screenshots
# Использование внешнего OCR-сервера (PaddleOCR)
lit parse document.pdf --ocr-server-url http://localhost:8829/ocr --ocr-language zh
Тарифы
LiteParse является open-source инструментом под лицензией Apache 2.0. Инструмент полностью бесплатен для использования, нет никаких тарифных планов, платных функций или ограничений по объёму документов.
| Уровень | Цена | Ограничения |
|---|---|---|
| Open Source | Бесплатно | Нет |
| Самохостинг | Бесплатно | Зависит от ресурсов сервера |
Если стандартного локального парсинга недостаточно, LlamaIndex предлагает переход на облачный LlamaParse с более мощными возможностями (платный, тарификация по страницам).
Плюсы и минусы
| ✅ Плюсы | ❌ Минусы |
|---|---|
| Полностью бесплатно, лицензия Apache 2.0 | Python-версия — обёртка вокруг Node.js CLI, требует Node.js ≥ 18 |
| Нет облачных зависимостей, всё локально | Выходной формат ограничен текстом, скриншотами и bounding boxes — нет markdown, JSON-схем или конвертации таблиц в CSV |
| Поддержка PDF, DOCX, XLSX, PPTX, изображений | Плохо справляется со сложными документами: плотные многоколоночные статьи, рукописные формы, плохо отсканированные PDF |
| Параллельный OCR на всех ядрах CPU | Зависимость от LibreOffice/ImageMagick для конвертации форматов |
| WASM-версия для браузера | Проект относительно молодой, экосистема только формируется |
| Поддержка PaddleOCR (80+ языков, CJK) | Tesseract по умолчанию — среднее качество OCR |
| Интеграция как agent skill | Нет нативной поддержки markdown-вывода |
Сравнение с альтернативами
| Параметр | LiteParse | LlamaParse | PyMuPDF / pdfplumber |
|---|---|---|---|
| Цена | Бесплатно (OSS) | Платно (API) | Бесплатно (OSS) |
| Выполнение | Локально | Облако | Локально |
| GPU требуется | Нет | Нет | Нет |
| Лицензия | Apache 2.0 | Проприетарная | AGPL / MIT |
| Поддержка форматов | PDF, DOCX, XLSX, PPTX, изображения | PDF + многие форматы | В основном PDF |
| OCR | Tesseract / PaddleOCR / EasyOCR | Встроенный (облако) | Ограниченный |
| Bounding Boxes | ✅ | ✅ | ✅ |
| Markdown-вывод | ❌ | ✅ | ❌ |
| Сложные таблицы | Частично | ✅ | Искажает таблицы, теряет пространственный контекст |
| Конфиденциальность | ✅ Полная | ❌ Данные в облако | ✅ Полная |
| Скорость | ⚡ Высокая | 🐢 Зависит от сети | ⚡ Высокая |
| Браузерная поддержка | ✅ WASM | ❌ | ❌ |
Вердикт
Если вы строите агент или real-time приложение, которому нужно быстро прочитать PDF и двигаться дальше — используйте LiteParse. Если вы строите продукт для работы с документами, где критически важно точно распознать каждую таблицу — используйте LlamaParse.
Для разработчиков, создающих приложения, чувствительные к конфиденциальности, работающих в изолированных окружениях или избегающих затрат на API за каждый документ, LiteParse предлагает практичную альтернативу.
LiteParse интегрируется с фреймворком LlamaIndex, но как open-source библиотека может использоваться независимо — вывод можно направлять в LangChain, кастомный LLM-пайплайн, MindStudio-workflow или простой скрипт обработки данных.
Рейтинг: 8/10
| Критерий | Оценка |
|---|---|
| Простота установки и использования | 7/10 |
| Скорость парсинга | 9/10 |
| Качество для стандартных PDF | 8/10 |
| Качество для сложных документов | 5/10 |
| Конфиденциальность и локальность | 10/10 |
| Экосистема и интеграции | 8/10 |
| Стоимость (бесплатность) | 10/10 |
- RAG-пайплайны, где скорость важнее идеального форматирования
- Пакетная обработка тысяч PDF без API-расходов
- AI-агенты, итеративно просматривающие большие массивы документов
- Приложения с требованиями к конфиденциальности данных (медицина, юриспруденция)
- Браузерные инструменты с WASM-интеграцией