GitHub - majcheradam/ocrbase: 📄 PDF ->.MD/.JSON API & SDK for PaddleOCR-VL with structured data extraction. Self-hostable.
Extracto
📄 PDF ->.MD/.JSON API & SDK for PaddleOCR-VL with structured data extraction. Self-hostable. - majcheradam/ocrbase
Resumen
Resumen Principal
ocrbase se posiciona como una solución avanzada y altamente escalable para la transformación de documentos PDF en datos estructurados. Su núcleo tecnológico se basa en modelos OCR de peso abierto de vanguardia, específicamente PaddleOCR-VL-0.9B, lo que asegura una extracción de texto con una precisión destacada. La plataforma no solo extrae texto, sino que permite a los usuarios definir esquemas personalizados para obtener directamente datos estructurados en formato JSON, un aspecto esencial para la automatización y la integración con sistemas de gestión de datos. Diseñado para manejar grandes volúmenes, ocrbase implementa un procesamiento basado en colas que puede gestionar miles de documentos, subrayando su idoneidad para entornos empresariales con necesidades de procesamiento a escala. La experiencia del desarrollador se optimiza mediante un SDK Type-safe en TypeScript, que incluye soporte para React hooks, facilitando la integración. Además, ofrece actualizaciones en tiempo real vía WebSockets y la flexibilidad de ser auto-hosteable, lo que permite
Contenido
ocrbase
Turn PDFs into structured data at scale. Powered by frontier open-weight OCR models with a type-safe TypeScript SDK.
Features
- Best-in-class OCR - PaddleOCR-VL-0.9B for accurate text extraction
- Structured extraction - Define schemas, get JSON back
- Built for scale - Queue-based processing for thousands of documents
- Type-safe SDK - Full TypeScript support with React hooks
- Real-time updates - WebSocket notifications for job progress
- Self-hostable - Run on your own infrastructure
Quick Start
import { createClient } from "ocrbase"; const { parse, extract } = createClient({ baseUrl: "https://your-instance.com", apiKey: "ak_xxx", }); // Parse document to markdown const job = await parse({ file: document }); console.log(job.markdownResult); // Extract structured data const job = await extract({ file: invoice, hints: "invoice number, date, total, line items", }); console.log(job.jsonResult);
See SDK documentation for React hooks and advanced usage.
Self-Hosting
See Self-Hosting Guide for deployment instructions.
Requirements: Docker, Bun
Architecture
License
MIT - See LICENSE for details.
Contact
For API access, on-premise deployment, or questions: adammajcher20@gmail.com
Fuente: GitHub