Athrun Data Intelligence



Intente tomar una fotografía de cada uno de los lugares de América del Septentrión. casi nada 11.000 especies de árboles y tendrá una mera fracción de los millones de fotografías contenidas en conjuntos de datos de imágenes de la naturaleza. Estas enormes colecciones de instantáneas, que van desde mariposas a ballenas jorobadas – son una gran útil de investigación para los ecólogos porque proporcionan evidencia de comportamientos únicos de los organismos, condiciones raras, patrones de migración y respuestas a la contaminación y otras formas de cambio climático.

Si correctamente son completos, los conjuntos de datos de imágenes de la naturaleza aún no son tan efectos como podrían ser. Lleva mucho tiempo apañarse en estas bases de datos y recuperar las imágenes más relevantes para su hipótesis. Estaría mejor con un asistente de investigación automatizado, o quizás con sistemas de inteligencia sintético llamados modelos de habla de visión multimodal (VLM). Están entrenados tanto en texto como en imágenes, lo que les facilita identificar detalles más finos, como los árboles específicos en el fondo de una foto.

Pero, ¿qué tan correctamente pueden los VLM ayudar a los investigadores de la naturaleza en la recuperación de imágenes? Un equipo del Laboratorio de Ciencias de la Computación e Inteligencia Químico (CSAIL) del MIT, el University College London, iNaturalist y otros lugares diseñó una prueba de rendimiento para averiguarlo. La tarea de cada VLM: circunscribir y reorganizar los resultados más relevantes interiormente del conjunto de datos “INQUIRE” del equipo, compuesto por 5 millones de imágenes de vida silvestre y 250 indicaciones de búsqueda de ecólogos y otros expertos en biodiversidad.

Buscando esa rana distinto

En estas evaluaciones, los investigadores descubrieron que los VLM más grandes y avanzados, que están entrenados con muchos más datos, a veces pueden elogiar a los investigadores los resultados que desean ver. Los modelos funcionaron razonablemente correctamente en consultas sencillas sobre contenido visual, como identificar escombros en un arrecife, pero tuvieron dificultades significativas con consultas que requerían conocimiento perito, como identificar condiciones o comportamientos biológicos específicos. Por ejemplo, los VLM descubrieron con cierta facilidad ejemplos de medusas en la playa, pero tuvieron dificultades con indicaciones más técnicas como «axantismo en una rana verde», una condición que limita su capacidad de hacer que su piel se vuelva amarilla.

Sus hallazgos indican que los modelos necesitan muchos más datos de entrenamiento específicos de dominio para procesar consultas difíciles. El estudiante de doctorado del MIT Edward Vendrow, un afiliado de CSAIL que codirigió el trabajo en el conjunto de datos en un nuevo papelcree que al familiarizarse con datos más informativos, los VLM algún día podrían ser excelentes asistentes de investigación. «Queremos construir sistemas de recuperación que encuentren los resultados exactos que buscan los científicos cuando monitorean la biodiversidad y analizan el cambio climático», dice Vendrow. «Los modelos multimodales aún no comprenden un habla irrefutable más difícil, pero creemos que INQUIRE será un punto de relato importante para rastrear cómo mejoran en la comprensión de la terminología científica y, en última instancia, ayudar a los investigadores a encontrar automáticamente las imágenes exactas que necesitan».

Los experimentos del equipo ilustraron que los modelos más grandes tendían a ser más efectivos para búsquedas tanto más simples como más complejas conveniente a sus amplios datos de entrenamiento. Primero utilizaron el conjunto de datos INQUIRE para probar si los VLM podían dominar un camarilla de 5 millones de imágenes a los 100 resultados más relevantes (asimismo conocido como «clasificación»). Para consultas de búsqueda sencillas como «un arrecife con estructuras y escombros artificiales», modelos relativamente grandes como «SigLIP” encontró imágenes coincidentes, mientras que los modelos CLIP de pequeño tamaño tuvieron problemas. Según Vendrow, los VLM más grandes “sólo están empezando a ser efectos” para clasificar consultas más difíciles.

Vendrow y sus colegas asimismo evaluaron qué tan correctamente los modelos multimodales podían reclasificar esos 100 resultados, reorganizando qué imágenes eran más pertinentes para una búsqueda. En estas pruebas, incluso los grandes LLM entrenados con datos más seleccionados, como GPT-4o, tuvieron problemas: su puntuación de precisión fue solo del 59,6 por ciento, la puntuación más entrada alcanzada por cualquier maniquí.

Los investigadores presentaron estos resultados en la Conferencia sobre Sistemas de Procesamiento de Información Neural (NeurIPS) a principios de este mes.

Consultando por CONSULTAR

El conjunto de datos INQUIRE incluye consultas de búsqueda basadas en discusiones con ecólogos, biólogos, oceanógrafos y otros expertos sobre los tipos de imágenes que buscarían, incluidas las condiciones físicas y comportamientos únicos de los animales. Luego, un equipo de anotadores pasó 180 horas buscando en el conjunto de datos de iNaturalist con estas indicaciones, revisando cuidadosamente aproximadamente 200.000 resultados para etiquetar 33.000 coincidencias que se ajustaban a las indicaciones.

Por ejemplo, los anotadores utilizaron consultas como “un cangrejo ermitaño que utiliza desechos plásticos como caparazón” y “un cóndor de California etiquetado con un ’26’ verde” para identificar los subconjuntos del conjunto de datos de imágenes más prócer que representan estos eventos raros y específicos.

Luego, los investigadores utilizaron las mismas consultas de búsqueda para ver qué tan correctamente los VLM podían recuperar imágenes de iNaturalist. Las etiquetas de los anotadores revelaron cuando los modelos tuvieron dificultades para comprender las palabras esencia de los científicos, ya que sus resultados incluían imágenes previamente etiquetadas como irrelevantes para la búsqueda. Por ejemplo, los resultados de los VLM para “secuoyas con cicatrices de incendio” a veces incluían imágenes de árboles sin ninguna marca.

«Se tráfico de una cuidadosa selección de datos, centrándose en capturar ejemplos reales de investigaciones científicas en áreas de investigación en ecología y ciencias ambientales», dice Sara Beery, profesora asistente de crecimiento profesional Homer A. Burnell en el MIT, investigadora principal de CSAIL y compañera. -autor principal del trabajo. “Ha resultado cardinal para ampliar nuestra comprensión de las capacidades actuales de los VLM en estos entornos científicos potencialmente impactantes. Asimismo ha esbozado brechas en la investigación presente que ahora podemos trabajar para afrontar, particularmente para consultas de composición complejas, terminología técnica y las diferencias sutiles y detalladas que delinean las categorías de interés para nuestros colaboradores”.

«Nuestros hallazgos implican que algunos modelos de visión ya son lo suficientemente precisos como para ayudar a los científicos de vida silvestre a recuperar algunas imágenes, pero muchas tareas siguen siendo demasiado difíciles incluso para los modelos más grandes y de mejor rendimiento», dice Vendrow. «Aunque INQUIRE se centra en el monitoreo de la ecología y la biodiversidad, la amplia variedad de sus consultas significa que los VLM que funcionan correctamente en INQUIRE probablemente sobresalgan en el descomposición de grandes colecciones de imágenes en otros campos de observación intensiva».

Las mentes inquisitivas quieren ver

Llevando su tesina más allá, los investigadores están trabajando con iNaturalist para desarrollar un sistema de consulta que ayude mejor a los científicos y otras mentes curiosas a encontrar las imágenes que verdaderamente quieren ver. Su trabajo manifestación permite a los usuarios filtrar búsquedas por especie, permitiendo un descubrimiento más rápido de resultados relevantes como, por ejemplo, los diversos colores de fanales de los gatos. Vendrow y el coautor principal Omiros Pantazis, que recientemente recibió su doctorado en el University College de Londres, asimismo pretenden mejorar el sistema de reclasificación aumentando los modelos actuales para proporcionar mejores resultados.

El profesor asociado de la Universidad de Pittsburgh, Justin Kitzes, destaca la capacidad de INQUIRE para descubrir datos secundarios. «Los conjuntos de datos sobre biodiversidad se están volviendo demasiado grandes para que los revise cualquier irrefutable individual», dice Kitzes, que no participó en la investigación. “Este artículo fogata la atención sobre un problema difícil y sin resolver: cómo apañarse eficazmente en esos datos con preguntas que vayan más allá de simplemente ‘quién está aquí’ para preguntar sobre las características individuales, el comportamiento y las interacciones entre especies. Ser capaz de descubrir de guisa competente y precisa estos fenómenos más complejos en los datos de imágenes de la biodiversidad será fundamental para la ciencia fundamental y los impactos en el mundo existente en ecología y conservación”.

Vendrow, Pantazis y Beery escribieron el artículo con el ingeniero de software de iNaturalist Alexander Shepard, los profesores de la University College London Gabriel Brostow y Kate Jones, el profesor asociado y coautor principal de la Universidad de Edimburgo Oisin Mac Aodha y el profesor asistente Grant Van de la Universidad de Massachusetts en Amherst. Horn, quien fue coautor principal. Su trabajo fue apoyado, en parte, por el Laboratorio de IA Generativa de la Universidad de Edimburgo, la Fundación Franquista de Ciencias de EE. UU./Consejo de Investigación de Ciencias Naturales e Ingeniería del Centro General de IA y Cambio de Biodiversidad de Canadá, una banda de investigación de la Royal Society y el Bioma. Esquema de Lozanía financiado por el Fondo Mundial para la Naturaleza del Reino Unido.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *