run-llama-liteparse

star 0

LiteParse — Fast, light, open-source document parser focused on spatial text parsing with bounding boxes. No LLM features, no cloud. Runs locally. Python, Rust, TypeScript, WASM.

Ntizar By Ntizar schedule Updated 6/11/2026

name: run-llama-liteparse description: "LiteParse — Fast, light, open-source document parser focused on spatial text parsing with bounding boxes. No LLM features, no cloud. Runs locally. Python, Rust, TypeScript, WASM." version: 1.0.0 author: Mastermind (autonomous discovery) date: 2026-06-02 category: herramientas

LiteParse

URL: https://github.com/run-llama/liteparse
Categoría: Herramientas / Document Parsing
Estrellas: ~8.7k | Lenguaje: Rust (también Python, TypeScript, WASM)
Creado: 2026-02-09

¿Qué hace?

LiteParse es un parser de documentos rápido y ligero enfocado exclusivamente en análisis espacial de texto. A diferencia de otros parsers, NO usa LLMs ni dependencias cloud — todo corre localmente.

  • Fast Text Parsing — Análisis espacial usando PDFium
  • Flexible OCR System — Tesseract integrado + HTTP servers (EasyOCR, PaddleOCR, custom)
  • Screenshot Generation — Genera screenshots de páginas para LLM agents
  • Bounding Boxes — Información precisa de posición de texto
  • Multi-language — Python, Rust, Node.js/TypeScript, WASM (browser)
  • Multi-platform — Linux, macOS, Windows

Casos de uso

  1. Preprocess documents for RAG — Parsear PDFs antes de embedding
  2. Agent tooling — Generar screenshots de documentos para agentes IA
  3. Local-only pipelines — Cuando no se puede usar LlamaParse (cloud)
  4. Complemento a markitdown — MarkItDown es más general, LiteParse es más rápido y preciso con PDFs

Snippets útiles

# Install Python
pip install liteparse

# Install Rust
cargo add liteparse

# Install npm
npm install @llamaindex/liteparse

# Install WASM
npm install @llamaindex/liteparse-wasm
# Python — basic PDF parsing
from liteparse import parse_pdf

result = parse_pdf("document.pdf")

# Get text with bounding boxes
for page in result.pages:
    for text in page.text_blocks:
        print(f"Text: {text.content}")
        print(f"Box: {text.bbox}")  # x0, y0, x1, y1

# Generate screenshots for LLM agents
screenshots = result.generate_screenshots()
# Python — with OCR
from liteparse import parse_pdf, OCRConfig

result = parse_pdf(
    "scanned.pdf",
    ocr=OCRConfig(
        provider="tesseract",  # or "easyocr", "paddleocr", "http"
        languages=["es", "en"]
    )
)

Cómo integrarlo

  1. Instalar en el proyecto Python/Rust/TS
  2. Usar como step en pipeline de documentos → RAG
  3. Configurar OCR si se necesitan documentos escaneados
  4. Generar screenshots para agentes que necesitan ver el documento

Diferencias con MarkItdown

Feature MarkItDown LiteParse
Formatos PDF, PPTX, DOCX, XLSX, images, audio, HTML, ZIP, YouTube, EPUB... Solo PDF
Velocidad Moderada Muy rápida (Rust/PDFium)
Bounding boxes No
OCR Básico Flexible (Tesseract, EasyOCR, PaddleOCR, custom)
Screenshots No Sí (para LLM agents)
Local-only
En Mastermind ✅ Ya tenemos skill 🆕 Nuevo skill

Notas

  • Proyecto de LlamaIndex (los de LangChain pero de Llama)
  • LiteParse V1 existe en branch logan/liteparse-v1
  • Para documentos complejos (tablas densas, gráficos, manuscritos), recomendar LlamaParse (cloud)
Install via CLI
npx skills add https://github.com/Ntizar/koldo --skill run-llama-liteparse
Repository Details
star Stars 0
call_split Forks 0
navigation Branch main
article Path SKILL.md
More from Creator