Athrun Data Intelligence


Obtener el texto en un archivo PDF embrollado es más problemático que útil. El problema no reside en la capacidad de mudar píxeles en texto, sino en suministrar la estructura del documento. Las tablas, títulos e imágenes deben estar en la secuencia correcta. Cuando se utiliza Mistral OCR 3, ya no se tráfico de la conversión de texto, sino de la producción de información comercial aprovechable. La nueva utensilio de linaje de documentos basada en IA tendrá como objetivo mejorar la linaje de archivos complicados.

Esta manual analiza el maniquí Mistral OCR 3. Asimismo discutiremos sus nuevas características y sus métodos de uso y, finalmente, concluiremos con una comparación con el maniquí DeepSeek-OCR de peso hendido.

Entendiendo Mistral OCR 3

Mistral presenta su nueva utensilio OCR 3 como uno de uso genérico. Se ocupa de la gran cantidad de documentos presentes en las organizaciones y no se limita a realizar escaneos limpios de facturas con OCR. Mistral brinda las mejoras más importantes que solucionan algunos de los fallos frecuentes del OCR.

  • Escritura: El maniquí obtiene un trabajo mejorado en la impresión y escritura a mano de texto en impresoras.
  • Formas: Procesa estructuras complicadas de cuadros, etiquetas y tipos mixtos de textos. Es peculiar de facturas, recibos y documentos gubernamentales.
  • Documentos escaneados: El sistema se ve menos afectado por artefactos de escaneo como sesgo, distorsión, disminución resolución, etc.
  • Tablas complejas: Proporciona una tabla de reconstrucción mejorada. Esto abarcará una combinación de celdas, así como varias filas. La salida está en etiquetas HTML para suministrar el diseño innovador.

Mistral dice que probó el maniquí comparándolo con puntos de relato internos, es asegurar, casos de negocio reales.

¿Qué hay de nuevo en OCR 3?

La lectura final ofrece dos modificaciones importantes para los desarrolladores: calidad del resultado y control. Estas características amplifican los poderes de linaje organizados del maniquí.

1. Nuevos controles para medios del documento: El registro de cambios del Mistral OCR 3 asocia el nuevo maniquí con parámetros y resultados novedosos. Tableformat ahora puede clasificar entre rebajas y HTML. Extractheader, extractfooter y los hipervínculos igualmente ayudarán en el manejo de secciones especiales del documento. Esta es una de las bases de su sistema de inteligencia fabricado de documentos.

2. Un patio de juegos de interfaz de legatario para pruebas rápidas: Mistral OCR 3 tiene su API de OCR y un “Document AI Playground” en Mistral AI Studio. Un parque inmaduro le permite probar cómodamente escenarios desafiantes, por ejemplo, escaneos o garabatos defectuosos. Ayer de automatizar su proceso, puede modificar parámetros como el formato de la tabla y probar los resultados. Los proyectos de OCR exitosos deben tener un circuito de feedback que sea rápido.

3. Compatibilidad con versiones anteriores: Mistral confirma que OCR 3 es compatible con el resto de su lectura precedente. Esto permitirá a los equipos modernizar sus sistemas con el tiempo sin tener que retornar a escribir su proceso.

Modelos y precios

Se dice que el OCR 3 es mistral-ocr-2512. La documentación igualmente hace relato a un seudónimo mistral-ocr-latest. El precio se realizará por página.

  • $2 por 1000 páginas
  • $3 por 1000 páginas comentadas

El segundo precio sería cuando se utilizan anotaciones para realizar una linaje estructurada. Los equipos deberían incluir este coste en el presupuesto con adelanto.

Praxis con Document AI Playground

Puede consentir a Mistral OCR 3 a través de Document AI Playground en Mistral AI Studio. Esto permite realizar pruebas rápidas y prácticas.

  1. Ensenada Document AI Playground en Mistral AI Studio. Dirígete a console.mistral.ai/build/document-ai/ocr-playground
Panel de control de AI Studio

Si ves «Selecciona un plan”, luego regístrate usando tu número y podrás ver lo sucesivo

Zona de juegos OCR
  1. Cargue un archivo PDF o de imagen. Comience con un documento complicado, como un formulario escaneado con una tabla.

¿Por qué esta imagen?

Una relación limpia con una tabla (excelente primera prueba para la reconstrucción de tablas OCR 3)

Utilice esto para comprobar:

  • orden de repaso (campos de encabezado frente a líneas de pedido)
  • linaje de tablas (filas/columnas, totales)
  • linaje de encabezado/pie de página
  1. Seleccione el maniquí OCR 3, que puede ser mistral-ocr-2512 o más flamante.
  2. Elija un formato de tabla. Utilice html para obtener precisión estructural o rebajas si su canalización lo utiliza.
Selección de opciones para la detección de OCR
  1. Ejecute el proceso e inspeccione el resultado. Verifique el orden de repaso y la estructura de la tabla.

Producción:

Salida de Mistral OCR 3
  • Esta primera ejecución de OCR 3 es esencialmente perfecta para una relación digital limpia.
  • Todos los campos secreto, las secciones de diseño y la tabla de prontuario de cargos se capturan correctamente sin errores de texto ni alucinaciones.
  • Se conservan la estructura de la tabla y la coherencia numérica, lo cual es fundamental para la automatización financiera.
  • Muestra que OCR 3 está dispuesto para producción de factoría para facturas unificado.

Praxis con la API de OCR

Opción A: OCR de un documento desde una URL

La API de OCR admite URL de documentos. Devuelve texto y medios estructurados.

Aquí hay un ejemplo de Python usando el SDK oficial.

import os 
from mistralai import Mistral, DocumentURLChunk 

client = Mistral(api_key=os.environ("MISTRAL_API_KEY")) 

resp = client.ocr.process( 
   model="mistral-ocr-2512", 
  document=DocumentURLChunk(document_url="https://arxiv.org/pdf/2510.04950"), 
   table_format="html", 
   extract_header=True, 
   extract_footer=True, 
) 

print(resp.pages(0).markdown(:1000))

Producción:

Respuesta de OCR desde una URL

Opción B: cargar archivos y OCR mediante file_id 

Este método funciona para documentos privados, no para una URL pública. La API de Mistral tiene una /v1/files punto final para las cargas.

Primero, cargue el archivo usando Pitón.

import os 
from mistralai import Mistral 

client = Mistral(api_key=os.environ("MISTRAL_API_KEY")) 

uploaded = client.files.upload( 
   file={"file_name": "doc.pdf", "content": open("/content/Resume-Sample-1-Software-Engineer.pdf", "rb")}, 
   purpose="ocr", 
) 

resp = client.ocr.process( 
   model="mistral-ocr-2512", 
   document={"file_id": uploaded.id}, 
   table_format="html", 
) 

print(resp.pages(0).markdown(:1000))

Producción:

Respuesta de OCR por un file_id

Manejo de imágenes y tablas

Las imágenes y tablas en Markdown se caracterizan por marcadores de posición utilizados por la salida OCR de Mistral. El contenido actual que se extrae se devuelve en diferentes matrices. Este diseño le brinda la opción de tener la deducción como la presencia principal del documento. Los capital de imágenes y tablas se pueden juntar en la ubicación requerida.

El OCR simple es el primer paso. La linaje estructurada da el valía actual. La función de anotaciones de ideas se proporciona en la plataforma de IA de documentos de Mistral. Le permite crear un esquema y desestructurar documentos con JSON. Así es como se crean canales de linaje confiables que no se pueden romper cambiando el diseño de la relación por parte de un proveedor. Una alternativa más actos es utilizar OCR 3 para introducir texto y anotaciones en los campos particulares que necesite, por ejemplo, números de relación o totales.

Ampliación de escalera con inferencia por lotes

En el procesamiento de grandes volúmenes, se requiere un procesamiento por lotes. El sistema por lotes de Mistral le permite dirigir una gran cantidad de solicitudes API en un archivo con extensión.jsonl. Luego se pueden ejecutar como un solo trabajo. La documentación indica que /v1/ocr es uno de los puntos finales de trabajos por lotes admitidos.

Cómo nominar el maniquí correcto

La mejor opción depende de sus documentos y limitaciones. Aquí tienes una forma limpia de evaluar.

Qué valorar

  1. Precisión del texto: Utilice tasas de error de caracteres o palabras en páginas de muestra.
  2. Calidad de la estructura: Reconstrucción de tablas de puntuación y corrección del orden de repaso.
  3. Fiabilidad de linaje: Mida la precisión del campo para sus puntos de datos objetivo.
  4. Rendimiento operante: Realice un seguimiento de la latencia, el rendimiento y los modos de error.

Comparemos

Utilice la sucesivo imagen como relato para comparar uno y otro modelos. Seleccionamos esta imagen tal como está:

Un formulario de prueba de esfuerzo difícil con campos encuadrados + escritura a mano mixta + texto impreso (excelente para comparar OCR 3 con DeepSeek-OCR).

Usaremos esto para comparar:

  • precisión de escritura a mano (cursiva + dígitos)
  • alineamiento de cuadro/campo (números internamente de pequeños cuadrados)
  • robustez delante diseños densos y texto pequeño

Mistral OCR 3

Configurar los ajustes de OCR

Producción:

Respuesta de Mistral OCR 3

Este resultado es impresionante dada la dificultad de la entrada.

  • Mistral OCR 3 identifica correctamente la estructura del documento, los encabezados y la mayoría de los dígitos y textos escritos a mano, convirtiendo una escritura densa en una deducción aprovechable.
  • En las tablas aparecen algunas duplicaciones y problemas menores de alineamiento, lo cual es frecuente en cuadrículas de escritura a mano pesadas.
  • En genérico, demuestra un sólido gratitud de escritura a mano y conocimiento del diseño, lo que lo hace adecuado para la digitalización de formularios del mundo actual con un posprocesamiento somero.

OCR de búsqueda profunda

Respuesta de OCR de DeepSeek

El resultado ha sido embellecido, lo que hace que sea más realizable de seguir que la respuesta precedente. Aquí hay algunas otras cosas que noté sobre:

  • OCR de búsqueda profunda Muestra un sólido gratitud de la escritura a mano, pero tiene más dificultades con la precisión semántica y la fidelidad del diseño.
  • Los campos secreto se malinterpretan, como «Ciudad» y «Estado ZIP», y la estructura de la tabla es menos fiel con encabezados incorrectos y filas duplicadas.
  • El gratitud a nivel de carácter es moderado, pero el holgado, la agrupación y el significado de campo se degradan con una escritura densa.

Resultado:

Mistral OCR 3 supera claramente a DeepSeek OCR en esta forma con mucha escritura a mano. Preserva la estructura del documento, la semántica de los campos y la alineamiento de las tablas con mucha más precisión, incluso bajo densas cuadrículas escritas a mano. DeepSeek OCR lee los caracteres razonablemente adecuadamente, pero se interrumpe el diseño, los encabezados y el significado de los campos, lo que requiere un decano esfuerzo de integridad. Para la digitalización y automatización de formularios del mundo actual, Mistral OCR 3 es el claro vencedor.

¿Cuál deberías nominar?

Seleccione Mistral OCR 3 en caso de que necesite un producto OCR completo que incluya una interfaz de legatario y una API de OCR clara. Es inmejorable en caso de costo SaaS predecible y de ingreso fidelidad y valoración de la reconstrucción de tablas.

Seleccione DeepSeek-OCR cuando sea necesario alojarlo localmente o autoalojarlo. Da flexibilidad y control del proceso de inferencia a los equipos que estén dispuestos a controlar las operaciones. Es posible que muchos equipos recurran a uno y otro: Mistral como canal principal y DeepSeek como copia de seguridad de documentos confidenciales.

Conclusión

La estructura y el flujo de trabajo se vuelven preocupaciones importantes correcto a los cambios en Mistral OCR 3. Los controles de la tabla, las anotaciones de linaje JSON y el radio de juegos tienen características como la interfaz de legatario y pueden sujetar el tiempo de avance. Es una de las poderosas productizaciones de la inteligencia documental. DeepSeek-OCR ofrece otra forma. Considera que OCR es un problema de compresión relacionado con LLM y brinda a los usuarios autogobierno de infraestructura. Estos dos modelos demuestran la futura separación de la tecnología OCR.

Preguntas frecuentes

P1. ¿Cuál es el beneficio significativo de Mistral OCR 3?

R. Su punto válido secreto es que se concentra en suministrar la estructura del documento, incluidas tablas y secuencias de repaso complicadas, y convertir documentos escaneados en información útil.

P2. ¿Procesamiento de tablas en Mistral OCR 3?

R. Tiene la capacidad de gestar tablas en formato HTML, lo que tiene la preeminencia adicional de suministrar datos complejos, como celdas combinadas y encabezados de varias filas, lo que garantiza una decano integridad de los datos.

P3. ¿Es posible probar Mistral OCR 3 ayer de utilizar la API?

R. Sí, Doc AI Playground en AI Studio de Mistral le ofrece cargar documentos y cotejar con las funciones de OCR.

Harsh Mishra es un ingeniero de IA/ML que pasa más tiempo hablando con modelos de habla grandes que con humanos reales. Apasionado por GenAI, PNL y hacer que las máquinas sean más inteligentes (para que no lo reemplacen todavía). Cuando no optimiza modelos, probablemente esté optimizando su consumo de café. 🚀☕

Inicie sesión para continuar leyendo y disfrutar de contenido seleccionado por expertos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *