Athrun Data Intelligence


La inteligencia químico ha crecido más allá de los sistemas centrados en el jerga, evolucionando en modelos capaces de procesar múltiples tipos de entrada, como texto, imágenes, audio y video. Esta ámbito, conocida como estudios multimodal, tiene como objetivo replicar la capacidad humana natural para integrar e interpretar datos sensoriales variados. A diferencia de los modelos de IA convencionales que manejan una sola modalidad, los generalistas multimodales están diseñados para procesar y contestar a través de formatos. El objetivo es acercarse a la creación de sistemas que imiten la cognición humana combinando perfectamente diferentes tipos de conocimiento y percepción.

El desafío enfrentado en este campo radica en permitir que estos sistemas multimodales demostraran una verdadera propagación. Si perfectamente muchos modelos pueden procesar múltiples entradas, a menudo no pueden transferir el estudios a través de tareas o modalidades. Esta abandono de prosperidad de la tarea cruzada, conocida como sinergia, los hirvientes progresan en dirección a sistemas más inteligentes y adaptativos. Un maniquí puede sobresalir en la clasificación de imágenes y la gestación de texto por separado, pero no puede considerarse un generalista robusto sin la capacidad de conectar las habilidades de uno y otro dominios. Conquistar esta sinergia es esencial para desarrollar sistemas de IA más capaces y autónomos.

Muchas herramientas actuales dependen en gran medida de los modelos de idiomas grandes (LLM) en su núcleo. Estos LLM a menudo se complementan con componentes externos y especializados adaptados al examen de imágenes o tareas de exploración del deje. Por ejemplo, los modelos existentes como Clip o Flamingo integran el jerga con la visión, pero no conectan profundamente los dos. En área de funcionar como un sistema unificado, dependen de módulos poco acoplados que imiten la inteligencia multimodal. Este enfoque fragmentado significa que los modelos carecen de la inmueble interna necesaria para un estudios intermodal significativo, lo que resulta en el rendimiento de la tarea aislada en área de la comprensión holística.

Investigadores de la Universidad Doméstico de Singapur (NUS), Nanyang Technological University (NTU), la Universidad de Zhejiang (ZJU), la Universidad de Pekín (PKU) y otros propusieron un ámbito de IA llamado a nivel genérico y un punto de relato llamado Normal Bench. Estas herramientas están construidas para calibrar y promover la sinergia a través de modalidades y tareas. El nivel genérico establece cinco niveles de clasificación en función de qué tan perfectamente un maniquí integra las tareas de comprensión, gestación y jerga. El punto de relato es compatible con Normal Bench, un gran conjunto de datos que alpargata más de 700 tareas y 325,800 ejemplos anotados extraídos de texto, imágenes, audio, video y datos 3D.

El método de evaluación internamente de nivel genérico se fundamento en el concepto de sinergia. Los modelos se evalúan mediante el rendimiento de la tarea y su capacidad para exceder las puntuaciones especialistas de última gestación (SOTA) utilizando el conocimiento compartido. Los investigadores definen tres tipos de sinergia (tarea a tarea, gestación de comprensión y modalidad de modalidad) y requieren una capacidad creciente en cada nivel. Por ejemplo, un maniquí de nivel 2 admite muchas modalidades y tareas, mientras que un maniquí de nivel 4 debe exhibir sinergia entre la comprensión y la gestación. Los puntajes se ponderan para aminorar el sesgo del dominio de la modalidad y alentar a los modelos a apoyar una escala equilibrada de tareas.

Los investigadores probaron 172 grandes modelos, incluidos más de 100 MLLM de stop rendimiento, contra Normal Bench. Los resultados revelaron que la mayoría de los modelos no demuestran la sinergia necesaria para adscribir como generalistas de nivel superior. Incluso los modelos avanzados como GPT-4V y GPT-4O no alcanzaron el Nivel 5, lo que requiere que los modelos usen entradas no jerga para mejorar la comprensión del jerga. Los modelos de más stop rendimiento administraron solo interacciones multimodales básicas, y nadie mostró evidencia de sinergia total entre tareas y modalidades. Por ejemplo, el punto de relato mostró 702 tareas evaluadas en 145 habilidades, pero ningún maniquí logró el dominio en todas las áreas. La cobertura de Normal-Bench en 29 disciplinas, utilizando 58 métricas de evaluación, establece un nuevo típico para la integridad.

Esta investigación aclara la brecha entre los sistemas multimodales actuales y el maniquí generalista ideal. Los investigadores abordan un problema central en la IA multimodal mediante la inclusión de herramientas que priorizan la integración sobre la especialización. Con el nivel genérico y el cárcel genérico, ofrecen un camino riguroso para evaluar y construir modelos que manejen diversas entradas y aprendan y razonen a través de ellas. Su enfoque ayuda a dirigir el campo en dirección a sistemas más inteligentes con flexibilidad del mundo verdadero y comprensión intermodal.


Mira el Papel y Página del esquema. Todo el crédito por esta investigación va a los investigadores de este esquema. Por otra parte, siéntete vacío de seguirnos Gorjeo Y no olvides unirte a nuestro 90k+ ml de subreddit.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:


Nikhil es asesor interno en MarktechPost. Está buscando un doble categoría integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *