Athrun Data Intelligence


La integración de los datos visuales y textuales en la inteligencia químico presenta un desafío complicado. Los modelos tradicionales a menudo luchan por interpretar documentos visuales estructurados como tablas, cuadros, infografías y diagramas con precisión. Esta acotación afecta la cuna y comprensión de contenido automatizado, que son cruciales para las aplicaciones en el prospección de datos, la recuperación de información y la toma de decisiones. A medida que las organizaciones confían cada vez más en ideas impulsadas por la IA, la menester de modelos capaces de procesar efectivamente la información visual y textual ha crecido significativamente.

IBM ha abordado este desafío con el propagación de Roca-visión-3.1-2Bun maniquí compacto en idioma de visión diseñado para la comprensión de los documentos. Este maniquí es capaz de extraer contenido de diversos formatos visuales, incluidas tablas, cuadros y diagramas. Entrenado en un conjunto de datos correctamente curado que comprende fuentes públicas y sintéticas, está diseñado para manejar una amplia tono de tareas relacionadas con los documentos. Afino de un piedra maniquí de jerga excelsoGranite-Vision-3.1-2b integra modalidades de imagen y texto para mejorar sus capacidades interpretativas, lo que lo hace adecuado para varias aplicaciones prácticas.

El maniquí consta de tres componentes esencia:

  1. Codificador de visión: Utiliza Siglip para procesar y codificar datos visuales de forma efectivo.
  2. Conector en idioma de visión: Un perceptrón multicapa de dos capas (MLP) con funciones de activación GELU, diseñadas para cerrar la información visual y textual.
  3. Maniquí de jerga excelso: Construido sobre el instructo Granite-3.1-2B, con una largura de contexto de 128k para manejar entradas complejas y extensas.

El proceso de capacitación se pedestal en LLAVA e incorpora características de codificadores de múltiples capas, adjunto con una resolución de cuadrícula más densa en Anyres. Estas mejoras mejoran la capacidad del maniquí para comprender el contenido visual detallado. Esta edificación permite que el maniquí realice varias tareas de documentos visuales, como analizar tablas y gráficos, ejecutar el registro de caracteres ópticos (OCR) y contestar consultas basadas en documentos con anciano precisión.

Las evaluaciones indican que la visión de granito-3.1-2B funciona correctamente en múltiples puntos de remisión, particularmente en la comprensión de los documentos. Por ejemplo, logró una puntuación de 0.86 en el punto de remisión de CHARTQA, superando otros modelos en el interior del rango de parámetros 1B-4B. En el punto de remisión TextVQA, alcanzó una puntuación de 0.76, demostrando un musculoso rendimiento al interpretar y contestar a preguntas basadas en información textual integrada en imágenes. Estos resultados destacan el potencial del maniquí para aplicaciones empresariales que requieren un procesamiento preciso de datos visuales y textuales.

La visión Granite-3.1-2B de IBM representa un avance extraordinario en los modelos en idioma de visión, que ofrece un enfoque correctamente sensato para la comprensión de los documentos visuales. Su metodología de edificación y entrenamiento le permite interpretar y analizar eficientemente datos visuales y textuales complejos. Con el soporte nativo para Transformers y VLLM, el maniquí es adaptable a varios casos de uso y puede implementarse en entornos basados ​​en la abundancia como Colab T4. Esta accesibilidad lo convierte en una útil experiencia para investigadores y profesionales que buscan mejorar las capacidades de procesamiento de documentos impulsados ​​por la IA.


Revisar el IBM-Granite/Granite-Vision-3.1-2B previa y IBM-Granite/Granite-3.1-2B-Instructo. Todo el crédito por esta investigación va a los investigadores de este plan. Encima, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRrepartir. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código libre recomendada: ‘Intellagent es un situación de múltiples agentes de código libre para evaluar el complicado sistema de IA conversacional’ (Promocionado)


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como patrón e ingeniero quimérico, ASIF se compromete a explotar el potencial de la inteligencia químico para el correctamente social. Su esfuerzo más fresco es el propagación de una plataforma de medios de inteligencia químico, MarkTechPost, que se destaca por su cobertura profunda de noticiero de estudios inconsciente y de estudios profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el manifiesto.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *