paddleocr

name: paddleocr description: OCR multiidioma de alta precisión completamente self-hosted para extracción de texto de documentos type: ML Model priority: Esencial mode: Self-hosted

PaddleOCR es el motor OCR principal del sistema. Ofrece alta precisión en múltiples idiomas e incluye detección de texto, reconocimiento y clasificación de orientación.

When to use

Usar para extraer todos los campos de texto del documento: nombre, apellidos, fecha de nacimiento, número de documento, fecha de expiración, nacionalidad.

Instructions

Instalar: pip install paddlepaddle paddleocr.
Inicializar con modelos en español/inglés: ocr = PaddleOCR(use_angle_cls=True, lang='es', use_gpu=True).
Procesar imagen: result = ocr.ocr(img_path, cls=True).
El resultado es una lista de [[bounding_box], [text, confidence]] para cada región de texto.
Filtrar por confianza mínima: confidence > 0.8.
Aplicar post-procesamiento: limpiar caracteres extraños, normalizar espacios.
Combinar con las regiones detectadas por YOLOv8 para extracción de campos específicos.
Para el MRZ, aplicar el parser ICAO separadamente sobre la región MRZ recortada.

Notes

Repositorio oficial: https://github.com/PaddlePaddle/PaddleOCR
EasyOCR es la alternativa: pip install easyocr — misma interfaz, diferente precisión por idioma.
Configurar use_gpu=False si no hay GPU disponible (mayor latencia esperada).