Athrun Data Intelligence


Un desafío importante en la evaluación de modelos de visión y jerga (VLM) radica en comprender sus diversas capacidades en una amplia matiz de tareas del mundo efectivo. Los puntos de narración existentes a menudo se quedan cortos, centrándose en conjuntos reducidos de tareas o formatos de resultados limitados, lo que da oportunidad a una evaluación inadecuada del potencial total de los modelos. El problema se vuelve más pronunciado cuando se evalúan modelos básicos multimodales más nuevos que necesitan pruebas exhaustivas en numerosos dominios de aplicaciones. Estos modelos requieren un conjunto de evaluaciones comparativas capaces de evaluar sus capacidades en varios escenarios de entrada y salida y al mismo tiempo minimizar los costos de inferencia.

Un equipo de investigadores del equipo MEGA-Bench presenta MEGA-Bench, un punto de narración reformador e integral que escalera la evaluación multimodal para englobar más de 500 tareas del mundo efectivo. MEGA-Bench tiene como objetivo proporcionar una evaluación sistemática y de incorporación calidad de modelos multimodales a través de diversos insumos, resultados y requisitos de habilidades, cubriendo una matiz más amplia de casos de uso que los puntos de narración anteriores. A diferencia de los puntos de narración anteriores centrados en resultados estandarizados como preguntas de opción múltiple, MEGA-Bench alpargata una amplia heterogeneidad de resultados, como números, frases, código, LaTeX y JSON. Esto permite una evaluación precisa de las capacidades generativas y predictivas, mostrando los detalles más finos del rendimiento del maniquí.

La estructura de MEGA-Bench está meticulosamente diseñada para asegurar una cobertura integral. Contiene 505 tareas multimodales, que fueron seleccionadas y comentadas por 16 colaboradores expertos. La taxonomía de narración incluye categorías como tipo de aplicación, tipo de entrada, formato de salida y requisitos de habilidades, lo que garantiza una cobertura de tareas diversa y completa. Para dar cabida a la variedad de resultados, se desarrollaron más de 40 métricas, que proporcionan un examen detallado y multidimensional de las capacidades de los modelos. El punto de narración igualmente presenta una utensilio de visualización interactiva para los usuarios, que les permite explorar las fortalezas y debilidades del maniquí en diferentes dimensiones, lo que convierte a MEGA-Bench en una utensilio de evaluación más destreza en comparación con los puntos de narración tradicionales.

Los resultados de la aplicación de MEGA-Bench a varios VLM de última procreación resaltaron algunos hallazgos esencia. Entre los modelos emblemáticos, el GPT-4o superó a otros, incluido el Claude 3.5, con una puntuación un 3,5% más incorporación. Entre los modelos de código amplio, Qwen2-VL logró un rendimiento de primer nivel, casi igualando a los modelos propietarios y superando al segundo mejor maniquí de código amplio en aproximadamente un 10%. Para los modelos de eficiencia, Gemini 1.5 Flash resultó ser el más efectivo en caudillo, con una fortaleza específica en tareas relacionadas con interfaces de afortunado y documentos. Otra idea fue que los modelos propietarios se beneficiaron de la condena de pensamiento, mientras que los modelos de código amplio tuvieron dificultades para aprovecharla de guisa efectiva.

En conclusión, MEGA-Bench representa un avance significativo en la evaluación comparativa multimodal, ya que ofrece una evaluación exhaustiva y detallada de las capacidades de los modelos de visión y jerga. Al confesar diversas entradas y horizontes, así como métricas de rendimiento detalladas, proporciona una evaluación más realista de cómo se desempeñan estos modelos en las tareas del mundo efectivo. Este punto de narración permite a los desarrolladores e investigadores comprender y optimizar mejor los VLM para aplicaciones prácticas, estableciendo un nuevo típico para la evaluación de modelos multimodales.


Mira el Papel y Tesina. Todo el crédito por esta investigación va a los investigadores de este plan. Adicionalmente, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grhacia lo alto. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.

(Próximo seminario web en vivo: 29 de octubre de 2024) La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)


Asif Razzaq es el director ejecutante de Marktechpost Media Inc.. Como patrón e ingeniero quimérico, Asif está comprometido a utilizar el potencial de la inteligencia fabricado para el admisiblemente social. Su esfuerzo más fresco es el tirada de una plataforma de medios de inteligencia fabricado, Marktechpost, que se destaca por su cobertura en profundidad del formación inconsciente y las informativo sobre formación profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el conocido.



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *