Athrun Data Intelligence



Los humanos lógicamente aprenden haciendo conexiones entre la paisaje y el sonido. Por ejemplo, podemos ver a determinado tocar el chelo y distinguir que los movimientos del violonchelista están generando la música que escuchamos.

Un nuevo enfoque desarrollado por investigadores del MIT y en otros lugares mejoría la capacidad de un maniquí de IA de estudiar de esta misma guisa. Esto podría ser útil en aplicaciones como el periodismo y la producción de películas, donde el maniquí podría ayudar a curar el contenido multimodal a través de videos automáticos y recuperación de audio.

A espléndido plazo, este trabajo podría estilarse para mejorar la capacidad de un autómata para comprender los entornos del mundo actual, donde la información auditiva y visual a menudo está estrechamente conectada.

Mejorando el trabajo previo de su clan, los investigadores crearon un método que ayuda a los modelos de formación inevitable a alinear los datos de audio y visuales correspondientes de los videoclips sin la privación de etiquetas humanas.

Ajustaron cómo se capacita su maniquí diferente, por lo que aprende una correspondencia de espinilla más fino entre un entorno de video en particular y el audio que ocurre en ese momento. Los investigadores todavía hicieron algunos ajustes arquitectónicos que ayudan al sistema a equilibrar dos objetivos de formación distintos, lo que mejoría el rendimiento.

Tomados en conjunto, estas mejoras relativamente simples aumentan la precisión de su enfoque en las tareas de recuperación de videos y en la clasificación de la obra en escenas audiovisuales. Por ejemplo, el nuevo método podría coincidir de forma cibernética y precisa el sonido de una puerta golpeando con la visual de que se obstrucción en un videoclip.

“We are building AI systems that can process the world like humans do, in terms of having both audio and visual information coming in at merienda and being able to seamlessly process both modalities. Looking forward, if we can integrate this audio-visual technology into some of the tools we use on a daily basis, like large language models, it could open up a lot of new applications,” says Andrew Rouditchenko, an MIT graduate student and co-author of a Documento sobre esta investigación.

Se le une al boletín el autor principal Edson Aroujo, un estudiante licenciado en la Universidad de Goethe en Alemania; Yuan Tantán, un ex postdoc de MIT; Saurabhchand Bhati, un MIT postdoc presente; Samuel Thomas, Brian Kingsbury y Leonid Karlinsky de IBM Research; Rogerio Feris, sabio principal y directivo del laboratorio MIT-IBM Watson AI; James Glass, sabio de investigación senior y presidente del Comunidad de Sistemas de Lenguas Hablados en el Laboratorio de Informática e Inteligencia Químico del MIT (CSAIL); y la autora senior Hilde Kuehne, profesora de ciencias de la computación en la Universidad de Goethe y profesora afiliada en el MIT-IBM Watson AI Lab. El trabajo se presentará en la conferencia sobre visión por computadora y examen de patrones.

Sincronizando

Este trabajo se pedestal en un método de formación inevitable Los investigadores desarrollaron Hace unos primaveras, que proporcionó una forma competente de entrenar un maniquí multimodal para procesar simultáneamente los datos de audio y visual sin la privación de etiquetas humanas.

Los investigadores alimentan este maniquí, llamado cav-mae, videoclips sin etiquetar y codifica los datos visuales y de audio por separado en representaciones llamadas tokens. Usando el audio natural de la disco, el maniquí aprende automáticamente a mapear los pares de audio y tokens visuales correspondientes que se cierran juntos internamente de su espacio de representación interna.

Descubrieron que el uso de dos objetivos de formación equilibra el proceso de formación del maniquí, lo que permite a Cav-mae comprender los datos de audio y visuales correspondientes al tiempo que mejoría su capacidad para recuperar videoclips que coinciden con las consultas de los usuarios.

Pero Cav-mae manejo las muestras de audio y visual como una dispositivo, por lo que un video clip de 10 segundos y el sonido de un leñazo de puerta se asignan juntos, incluso si ese evento de audio ocurre en solo un segundo del video.

En su maniquí mejorado, llamado Cav-Mae Sync, los investigadores dividen el audio en ventanas más pequeñas ayer de que el maniquí calcule sus representaciones de los datos, por lo que genera representaciones separadas que corresponden a cada ventana de audio más pequeña.

Durante la capacitación, el maniquí aprende a asociar un entorno de video con el audio que ocurre solo durante ese cuadro.

«Al hacer eso, el maniquí aprende una correspondencia de espinilla más fino, que ayuda con el rendimiento más delante cuando agregamos esta información», dice Araujo.

Igualmente incorporaron mejoras arquitectónicas que ayudan al maniquí a equilibrar sus dos objetivos de formación.

Unir «beneficio de maniobra»

El maniquí incorpora un objetivo contrastante, donde aprende a asociar datos de audio y visuales similares, y un objetivo de reconstrucción que tiene como objetivo recuperar datos de audio y visuales específicos basados ​​en consultas de usuarios.

En Cav-Mae Sync, los investigadores introdujeron dos nuevos tipos de representaciones de datos, o tokens, para mejorar la capacidad de formación del maniquí.

Incluyen «tokens globales» dedicados que ayudan con el objetivo de formación contrastante y los «tokens de registro» dedicados que ayudan al maniquí a centrarse en detalles importantes para el objetivo de reconstrucción.

«Esencialmente, agregamos un poco más de beneficio de maniobra al maniquí para que pueda realizar cada una de estas dos tareas, contrastantes y reconstructivas, un poco más independientes. Eso benefició al rendimiento universal», agrega Araujo.

Si correctamente los investigadores tuvieron cierta intuición, estas mejoras mejorarían el rendimiento de la sincronización Cav-mae, se requirió una cuidadosa combinación de estrategias para cambiar el maniquí en la dirección que querían que fuera.

«Correcto a que tenemos múltiples modalidades, necesitamos un buen maniquí para ambas modalidades por sí mismos, pero todavía necesitamos que se fusionen y colaboren», dice Rouditchenko.

Al final, sus mejoras mejoraron la capacidad del maniquí para recuperar videos basados ​​en una consulta de audio y predecir la clase de una secuencia de audio visual, como un perro que ladra o un herramienta.

Sus resultados fueron más precisos que su trabajo previo, y todavía funcionó mejor que los métodos más complejos y de última procreación que requieren mayores cantidades de datos de capacitación.

«A veces, las ideas muy simples o los pequeños patrones que ve en los datos tienen un gran valía cuando se aplica sobre un maniquí en el que está trabajando», dice Araujo.

En el futuro, los investigadores quieren incorporar nuevos modelos que generen mejores representaciones de datos en la sincronización Cav-Mae, lo que podría mejorar el rendimiento. Igualmente quieren permitir que su sistema maneje los datos de texto, lo que sería un paso importante para producir un maniquí de idioma excelso audiovisual.

Este trabajo es financiado, en parte, por el Ocupación Federal de Educación e Investigación teutónico y el Laboratorio MIT-IBM Watson AI.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *