LiteParse: быстрый open-source парсер документов от LlamaIndex

LlamaIndex создал LiteParse — бесплатный, не требующий GPU, open-source парсер документов, спроектированный для сохранения пространственной структуры таблиц и диаграмм перед передачей данных AI-агенту.

До появления LiteParse не существовало достойного среднего пути: чего-то одновременно быстрого, локального, учитывающего компоновку и созданного специально для потребления LLM. Именно этот пробел и заполнил LiteParse — CLI-инструмент и TypeScript-библиотека от LlamaIndex.

Что это и для кого

LiteParse — самостоятельный open-source инструмент парсинга PDF, сфокусированный исключительно на быстром и лёгком разборе документов. Он предоставляет высококачественный пространственный парсинг текста с ограничивающими рамками (bounding boxes), без проприетарных LLM-функций и облачных зависимостей. Всё выполняется локально.

Каждый AI-агент должен читать документы — будь то ассистент по коду, извлекающий контекст из PDF-спецификации, исследовательский агент, анализирующий пачку статей, или корпоративный workflow, обрабатывающий счета. Парсинг документов — незаметная, но необходимая «сантехника» агентного AI.

Целевая аудитория:

Разработчики, строящие RAG-пайплайны и AI-агентов
Команды, работающие в средах без интернета или с требованиями конфиденциальности
Backend/ML-инженеры, желающие избежать затрат на API за каждый документ
Исследователи и стартапы, которым нужен бесплатный локальный парсинг

ℹ Лицензия и стоимость

LiteParse распространяется под лицензией Apache 2.0 и является полностью бесплатным. Никаких тарифных планов, API-ключей и облачных зависимостей нет.

Ключевые возможности

1. Пространственный парсинг с bounding boxes

LiteParse обеспечивает высококачественный пространственный парсинг текста с ограничивающими рамками, без проприетарных LLM-функций и облачных зависимостей. Это означает, что таблицы, многоколоночные макеты и диаграммы сохраняют свою структуру — агент получает чистые данные, а не хаотичный набор символов.

2. Поддержка множества форматов

LiteParse поддерживает автоматическую конвертацию различных форматов документов в PDF перед парсингом, что делает его уникальным по сравнению с инструментами, работающими только с PDF.

Поддерживаемые форматы:

Офисные документы: DOCX, XLSX, PPTX (через LibreOffice)
Изображения: JPG, PNG, GIF, BMP, TIFF, WEBP, SVG (через ImageMagick)
PDF: нативная поддержка

3. OCR с гибкими движками

По умолчанию используется Tesseract. Для повышения точности или производительности можно подключить HTTP OCR-сервер. Предусмотрены готовые обёртки для популярных OCR-движков; можно интегрировать любой OCR-сервис через спецификацию LiteParse OCR API.

PaddleOCR поддерживает более 80 языков с отличной поддержкой CJK (китайский, японский, корейский).

4. Скриншоты страниц

LiteParse создан для быстрого извлечения текста и предоставления скриншотов для более глубокого мультимодального анализа. Это позволяет агентам сначала быстро сканировать текст, а затем при необходимости углубляться в визуальный анализ конкретных страниц.

5. Пакетный режим

Команда lit batch-parse позволяет обрабатывать целые директории документов с рекурсивным обходом поддиректорий, фильтрацией по расширению и параллельным OCR-рабочими потоками.

6. WebAssembly-поддержка

Существует WASM-версия (@llamaindex/liteparse-wasm) для быстрого лёгкого парсинга документов прямо в браузере — никакого сервера не требуется.

7. Python и JS/TS API

Доступна Python-обёртка для LiteParse — лёгкий локальный парсинг документов с опциональным OCR. Это обёртка вокруг Node.js CLI LiteParse.

from liteparse import LiteParse

parser = LiteParse()
# Парсинг одного документа
result = parser.parse("document.pdf")
print(result.text)

# Доступ к структурированным данным
for page in result.pages:
    print(f"Страница {page.pageNum}: {len(page.textItems)} текстовых элементов")

// npm i @llamaindex/liteparse
import { LiteParse } from '@llamaindex/liteparse';

const parser = new LiteParse({ ocrEnabled: true });
const result = await parser.parse('document.pdf');
console.log(result.text);

💡 Использование в агентских пайплайнах

LiteParse можно добавить как agent skill одной командой:

npx skills add run-llama/llamaparse-agent-skills --skill liteparse

Это идеально для интеграции в MCP-серверы и LlamaIndex-агентов.

Архитектура и принцип работы


graph TD
    A[Входной документ] --> B{Формат?}
    B -->|PDF| C[PDF.js: извлечение текста]
    B -->|DOCX/XLSX/PPTX| D[LibreOffice → PDF]
    B -->|Изображение| E[ImageMagick → PDF]
    D --> C
    E --> C
    C --> F[Grid Projection: пространственный анализ]
    F --> G{OCR нужен?}
    G -->|Да| H[Tesseract / PaddleOCR / EasyOCR]
    G -->|Нет| I[Результат]
    H --> I
    I --> J[Текст + Bounding Boxes]
    I --> K[JSON / Plain Text]
    I --> L[Скриншоты страниц]

Параметры CLI

# Базовый парсинг
lit parse document.pdf

# С OCR и выводом в JSON
lit parse document.pdf --format json --ocr-language eng

# Конкретные страницы
lit parse document.pdf --target-pages "1-5,10,15-20"

# Пакетная обработка директории
lit batch-parse ./docs ./output --recursive --extension .pdf

# Скриншоты страниц
lit screenshot document.pdf --target-pages "1,3,5" --dpi 300 -o ./screenshots

# Использование внешнего OCR-сервера (PaddleOCR)
lit parse document.pdf --ocr-server-url http://localhost:8829/ocr --ocr-language zh

Тарифы

LiteParse является open-source инструментом под лицензией Apache 2.0. Инструмент полностью бесплатен для использования, нет никаких тарифных планов, платных функций или ограничений по объёму документов.

Уровень	Цена	Ограничения
Open Source	Бесплатно	Нет
Самохостинг	Бесплатно	Зависит от ресурсов сервера

Если стандартного локального парсинга недостаточно, LlamaIndex предлагает переход на облачный LlamaParse с более мощными возможностями (платный, тарификация по страницам).

Плюсы и минусы

✅ Плюсы	❌ Минусы
Полностью бесплатно, лицензия Apache 2.0	Python-версия — обёртка вокруг Node.js CLI, требует Node.js ≥ 18
Нет облачных зависимостей, всё локально	Выходной формат ограничен текстом, скриншотами и bounding boxes — нет markdown, JSON-схем или конвертации таблиц в CSV
Поддержка PDF, DOCX, XLSX, PPTX, изображений	Плохо справляется со сложными документами: плотные многоколоночные статьи, рукописные формы, плохо отсканированные PDF
Параллельный OCR на всех ядрах CPU	Зависимость от LibreOffice/ImageMagick для конвертации форматов
WASM-версия для браузера	Проект относительно молодой, экосистема только формируется
Поддержка PaddleOCR (80+ языков, CJK)	Tesseract по умолчанию — среднее качество OCR
Интеграция как agent skill	Нет нативной поддержки markdown-вывода

Сравнение с альтернативами

Параметр	LiteParse	LlamaParse	PyMuPDF / pdfplumber
Цена	Бесплатно (OSS)	Платно (API)	Бесплатно (OSS)
Выполнение	Локально	Облако	Локально
GPU требуется	Нет	Нет	Нет
Лицензия	Apache 2.0	Проприетарная	AGPL / MIT
Поддержка форматов	PDF, DOCX, XLSX, PPTX, изображения	PDF + многие форматы	В основном PDF
OCR	Tesseract / PaddleOCR / EasyOCR	Встроенный (облако)	Ограниченный
Bounding Boxes	✅	✅	✅
Markdown-вывод	❌	✅	❌
Сложные таблицы	Частично	✅	Искажает таблицы, теряет пространственный контекст
Конфиденциальность	✅ Полная	❌ Данные в облако	✅ Полная
Скорость	⚡ Высокая	🐢 Зависит от сети	⚡ Высокая
Браузерная поддержка	✅ WASM	❌	❌

⚠ Когда LiteParse НЕ подойдёт

Для сложных документов (плотные таблицы, многоколоночные макеты, диаграммы, рукописный текст или отсканированные PDF) значительно лучшие результаты даст LlamaParse — облачный парсер для production-пайплайнов.

Вердикт

Если вы строите агент или real-time приложение, которому нужно быстро прочитать PDF и двигаться дальше — используйте LiteParse. Если вы строите продукт для работы с документами, где критически важно точно распознать каждую таблицу — используйте LlamaParse.

Для разработчиков, создающих приложения, чувствительные к конфиденциальности, работающих в изолированных окружениях или избегающих затрат на API за каждый документ, LiteParse предлагает практичную альтернативу.

LiteParse интегрируется с фреймворком LlamaIndex, но как open-source библиотека может использоваться независимо — вывод можно направлять в LangChain, кастомный LLM-пайплайн, MindStudio-workflow или простой скрипт обработки данных.

Рейтинг: 8/10

Критерий	Оценка
Простота установки и использования	7/10
Скорость парсинга	9/10
Качество для стандартных PDF	8/10
Качество для сложных документов	5/10
Конфиденциальность и локальность	10/10
Экосистема и интеграции	8/10
Стоимость (бесплатность)	10/10

📝 Идеальные сценарии применения

RAG-пайплайны, где скорость важнее идеального форматирования
Пакетная обработка тысяч PDF без API-расходов
AI-агенты, итеративно просматривающие большие массивы документов
Приложения с требованиями к конфиденциальности данных (медицина, юриспруденция)
Браузерные инструменты с WASM-интеграцией