Absortio

Email → Summary → Bookmark → Email

GitHub - majcheradam/ocrbase: 📄 PDF ->.MD/.JSON API & SDK for PaddleOCR-VL with structured data extraction. Self-hostable.

Extracto

📄 PDF ->.MD/.JSON API & SDK for PaddleOCR-VL with structured data extraction. Self-hostable. - majcheradam/ocrbase

Resumen

Resumen Principal

ocrbase se posiciona como una solución avanzada y altamente escalable para la transformación de documentos PDF en datos estructurados. Su núcleo tecnológico se basa en modelos OCR de peso abierto de vanguardia, específicamente PaddleOCR-VL-0.9B, lo que asegura una extracción de texto con una precisión destacada. La plataforma no solo extrae texto, sino que permite a los usuarios definir esquemas personalizados para obtener directamente datos estructurados en formato JSON, un aspecto esencial para la automatización y la integración con sistemas de gestión de datos. Diseñado para manejar grandes volúmenes, ocrbase implementa un procesamiento basado en colas que puede gestionar miles de documentos, subrayando su idoneidad para entornos empresariales con necesidades de procesamiento a escala. La experiencia del desarrollador se optimiza mediante un SDK Type-safe en TypeScript, que incluye soporte para React hooks, facilitando la integración. Además, ofrece actualizaciones en tiempo real vía WebSockets y la flexibilidad de ser auto-hosteable, lo que permite

Contenido

ocrbase

Turn PDFs into structured data at scale. Powered by frontier open-weight OCR models with a type-safe TypeScript SDK.

Features

  • Best-in-class OCR - PaddleOCR-VL-0.9B for accurate text extraction
  • Structured extraction - Define schemas, get JSON back
  • Built for scale - Queue-based processing for thousands of documents
  • Type-safe SDK - Full TypeScript support with React hooks
  • Real-time updates - WebSocket notifications for job progress
  • Self-hostable - Run on your own infrastructure

Quick Start

import { createClient } from "ocrbase";

const { parse, extract } = createClient({
  baseUrl: "https://your-instance.com",
  apiKey: "ak_xxx",
});

// Parse document to markdown
const job = await parse({ file: document });
console.log(job.markdownResult);

// Extract structured data
const job = await extract({
  file: invoice,
  hints: "invoice number, date, total, line items",
});
console.log(job.jsonResult);

See SDK documentation for React hooks and advanced usage.

Self-Hosting

See Self-Hosting Guide for deployment instructions.

Requirements: Docker, Bun

Architecture

Architecture Diagram

License

MIT - See LICENSE for details.

Contact

For API access, on-premise deployment, or questions: adammajcher20@gmail.com

Fuente: GitHub