name: run-llama-liteparse description: "LiteParse — Fast, light, open-source document parser focused on spatial text parsing with bounding boxes. No LLM features, no cloud. Runs locally. Python, Rust, TypeScript, WASM." version: 1.0.0 author: Mastermind (autonomous discovery) date: 2026-06-02 category: herramientas
LiteParse
URL: https://github.com/run-llama/liteparse
Categoría: Herramientas / Document Parsing
Estrellas: ~8.7k | Lenguaje: Rust (también Python, TypeScript, WASM)
Creado: 2026-02-09
¿Qué hace?
LiteParse es un parser de documentos rápido y ligero enfocado exclusivamente en análisis espacial de texto. A diferencia de otros parsers, NO usa LLMs ni dependencias cloud — todo corre localmente.
- Fast Text Parsing — Análisis espacial usando PDFium
- Flexible OCR System — Tesseract integrado + HTTP servers (EasyOCR, PaddleOCR, custom)
- Screenshot Generation — Genera screenshots de páginas para LLM agents
- Bounding Boxes — Información precisa de posición de texto
- Multi-language — Python, Rust, Node.js/TypeScript, WASM (browser)
- Multi-platform — Linux, macOS, Windows
Casos de uso
- Preprocess documents for RAG — Parsear PDFs antes de embedding
- Agent tooling — Generar screenshots de documentos para agentes IA
- Local-only pipelines — Cuando no se puede usar LlamaParse (cloud)
- Complemento a markitdown — MarkItDown es más general, LiteParse es más rápido y preciso con PDFs
Snippets útiles
# Install Python
pip install liteparse
# Install Rust
cargo add liteparse
# Install npm
npm install @llamaindex/liteparse
# Install WASM
npm install @llamaindex/liteparse-wasm
# Python — basic PDF parsing
from liteparse import parse_pdf
result = parse_pdf("document.pdf")
# Get text with bounding boxes
for page in result.pages:
for text in page.text_blocks:
print(f"Text: {text.content}")
print(f"Box: {text.bbox}") # x0, y0, x1, y1
# Generate screenshots for LLM agents
screenshots = result.generate_screenshots()
# Python — with OCR
from liteparse import parse_pdf, OCRConfig
result = parse_pdf(
"scanned.pdf",
ocr=OCRConfig(
provider="tesseract", # or "easyocr", "paddleocr", "http"
languages=["es", "en"]
)
)
Cómo integrarlo
- Instalar en el proyecto Python/Rust/TS
- Usar como step en pipeline de documentos → RAG
- Configurar OCR si se necesitan documentos escaneados
- Generar screenshots para agentes que necesitan ver el documento
Diferencias con MarkItdown
| Feature | MarkItDown | LiteParse |
|---|---|---|
| Formatos | PDF, PPTX, DOCX, XLSX, images, audio, HTML, ZIP, YouTube, EPUB... | Solo PDF |
| Velocidad | Moderada | Muy rápida (Rust/PDFium) |
| Bounding boxes | No | Sí |
| OCR | Básico | Flexible (Tesseract, EasyOCR, PaddleOCR, custom) |
| Screenshots | No | Sí (para LLM agents) |
| Local-only | Sí | Sí |
| En Mastermind | ✅ Ya tenemos skill | 🆕 Nuevo skill |
Notas
- Proyecto de LlamaIndex (los de LangChain pero de Llama)
- LiteParse V1 existe en branch
logan/liteparse-v1 - Para documentos complejos (tablas densas, gráficos, manuscritos), recomendar LlamaParse (cloud)