Athrun Data Intelligence



A medida que los modelos de inteligencia fabricado se vuelven cada vez más frecuentes y se integran en diversos sectores como la atención médica, las finanzas, la educación, el transporte y el entretenimiento, es fundamental comprender cómo funcionan internamente. Interpretar los mecanismos subyacentes a los modelos de IA nos permite auditarlos en sondeo de seguridad y sesgos, con el potencial de profundizar nuestra comprensión de la ciencia detrás de la inteligencia misma.

Imagínese si pudiéramos investigar directamente el cerebro humano manipulando cada una de sus neuronas individuales para examinar sus funciones en la percepción de un objeto en particular. Si aceptablemente un test de este tipo sería prohibitivamente invasivo en el cerebro humano, es más factible en otro tipo de red neuronal: una que sea fabricado. Sin incautación, al igual que el cerebro humano, los modelos artificiales que contienen millones de neuronas son demasiado grandes y complejos para estudiarlos a mano, lo que hace que la interpretabilidad a escalera sea una tarea muy desafiante.

Para encarar esto, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Químico (CSAIL) del MIT decidieron adoptar un enfoque automatizado para interpretar modelos de visión fabricado que evalúan diferentes propiedades de las imágenes. Desarrollaron «MAIA» (Agente de interpretabilidad automatizado multimodal), un sistema que automatiza una variedad de tareas de interpretabilidad de redes neuronales utilizando una columna vertebral de maniquí de visión y verbo equipada con herramientas para cotejar en otros sistemas de IA.

“Nuestro objetivo es crear un investigador de IA que pueda realizar experimentos de interpretabilidad de forma autónoma. Los métodos de interpretabilidad automatizados existentes simplemente etiquetan o visualizan datos en un proceso de una sola vez. Por otro flanco, MAIA puede gestar hipótesis, diseñar experimentos para probarlas y refinar su comprensión mediante estudio iterativos”, dice Tamar Rott Shaham, postdoctorado en ingeniería eléctrica e informática (EECS) del MIT en CSAIL y coautor de un nuevo artículo. artículo sobre la investigación. «Al combinar un maniquí de visión y verbo previamente entrenado con una biblioteca de herramientas de interpretabilidad, nuestro método multimodal puede replicar a las consultas de los usuarios componiendo y ejecutando experimentos específicos en modelos específicos, refinando continuamente su enfoque hasta que pueda proporcionar una respuesta integral».

Se ha demostrado que el agente automatizado aborda tres tareas secreto: fórmula componentes individuales interiormente de modelos de visión y describe los conceptos visuales que los activan, limpia clasificadores de imágenes eliminando características irrelevantes para hacerlos más resistentes a nuevas situaciones y sondeo objetos ocultos. sesgos en los sistemas de IA para ayudar a descubrir posibles problemas de equidad en sus resultados. «Pero una preeminencia secreto de un sistema como MAIA es su flexibilidad», dice Sarah Schwettmann PhD ’21, científica investigadora de CSAIL y codirectora de la investigación. «Demostramos la utilidad de MAIA en algunas tareas específicas, pero hexaedro que el sistema está construido a partir de un maniquí primordial con amplias capacidades de razonamiento, puede replicar a muchos tipos diferentes de consultas de interpretabilidad de los usuarios y diseñar experimentos sobre la marcha para investigarlas».

Neurona por neurona

En una tarea de ejemplo, un heredero humano le pide a MAIA que describa los conceptos que una neurona particular interiormente de un maniquí de visión es responsable de detectar. Para investigar esta pregunta, MAIA primero utiliza una aparejo que recupera «ejemplos de conjuntos de datos» del conjunto de datos de ImageNet, que activan al mayor la neurona. Para esta neurona de ejemplo, esas imágenes muestran personas vestidas formalmente y primeros planos de su perilla y cuello. MAIA plantea varias hipótesis sobre lo que impulsa la actividad de la neurona: expresiones faciales, barbillas o corbatas. Luego, MAIA utiliza sus herramientas para diseñar experimentos para probar cada hipótesis individualmente generando y editando imágenes sintéticas; en un test, ampliar una pajarita a la imagen de un rostro humano aumenta la respuesta de la neurona. «Este enfoque nos permite determinar la causa específica de la actividad de la neurona, de forma muy parecida a un test irrefutable verdadero», dice Rott Shaham.

Las explicaciones de MAIA sobre el comportamiento de las neuronas se evalúan de dos maneras secreto. En primer motivo, se utilizan sistemas sintéticos con comportamientos de verdad conocidos para evaluar la precisión de las interpretaciones de MAIA. En segundo motivo, para las neuronas «reales» interiormente de sistemas de IA entrenados sin descripciones reales, los autores diseñan un nuevo protocolo de evaluación automatizado que mide qué tan aceptablemente las descripciones de MAIA predicen el comportamiento de las neuronas en datos invisibles.

El método dirigido por CSAIL superó a los métodos de narración que describen neuronas individuales en una variedad de modelos de visión como ResNet, CLIP y el transformador de visión DINO. MAIA incluso obtuvo buenos resultados en el nuevo conjunto de datos de neuronas sintéticas con descripciones de verdad conocidas. Tanto para los sistemas reales como para los sintéticos, las descripciones a menudo estaban a la par con descripciones escritas por expertos humanos.

¿Qué utilidad tienen las descripciones de los componentes del sistema de IA, como las neuronas individuales? «Comprender y demarcar comportamientos interiormente de grandes sistemas de IA es una parte secreto de la auditoría de seguridad de estos sistemas antiguamente de implementarlos; en algunos de nuestros experimentos, mostramos cómo se puede utilizar MAIA para encontrar neuronas con comportamientos no deseados y eliminar estos comportamientos de un maniquí”, afirma Schwettmann. «Estamos construyendo cerca de un ecosistema de IA más resiliente donde las herramientas para comprender y monitorear los sistemas de IA siguen el ritmo de la ampliación del sistema, lo que nos permite investigar y, con suerte, comprender los desafíos imprevistos introducidos por los nuevos modelos».

Mirando interiormente de las redes neuronales

El incipiente campo de la interpretabilidad está madurando hasta convertirse en un ámbito de investigación distinta adyacente con el surgimiento de los modelos de formación inevitable de “caja negra”. ¿Cómo pueden los investigadores descubrir estos modelos y comprender cómo funcionan?

Los métodos actuales para espiar el interior tienden a ser limitados en escalera o en la precisión de las explicaciones que pueden producir. Por otra parte, los métodos existentes tienden a ajustarse a un maniquí particular y a una tarea específica. Esto hizo que los investigadores se preguntaran: ¿Cómo podemos construir un sistema genérico para ayudar a los usuarios a replicar preguntas de interpretabilidad sobre modelos de IA y al mismo tiempo combinar la flexibilidad de la experimentación humana con la escalabilidad de las técnicas automatizadas?

Un ámbito crítica que querían que abordara este sistema era el sesgo. Para determinar si los clasificadores de imágenes mostraban sesgos contra subcategorías particulares de imágenes, el equipo examinó la capa final del flujo de clasificación (en un sistema diseñado para clasificar o etiquetar fundamentos, muy parecido a una máquina que identifica si una foto es de un perro, un sagaz , o pájaro) y las puntuaciones de probabilidad de las imágenes de entrada (niveles de confianza que la máquina asigna a sus conjeturas). Para comprender los posibles sesgos en la clasificación de imágenes, se pidió a MAIA que encontrara un subconjunto de imágenes en clases específicas (por ejemplo, “labriego retriever”) que probablemente estuvieran etiquetadas incorrectamente por el sistema. En este ejemplo, MAIA descubrió que era probable que las imágenes de labradores negros estuvieran clasificadas erróneamente, lo que sugiere un sesgo en el maniquí cerca de los perros perdigueros de pelaje amarillo.

Regalado que MAIA depende de herramientas externas para diseñar experimentos, su rendimiento está acotado por la calidad de esas herramientas. Pero, a medida que mejore la calidad de herramientas como los modelos de síntesis de imágenes, incluso lo hará MAIA. MAIA incluso muestra un sesgo de confirmación en ocasiones, donde a veces confirma incorrectamente su hipótesis auténtico. Para mitigar esto, los investigadores crearon una aparejo de conversión de imagen a texto, que utiliza una instancia diferente del maniquí de verbo para resumir los resultados experimentales. Otro modo de error es el sobreajuste de un test particular, donde el maniquí a veces llega a conclusiones prematuras basadas en evidencia mínima.

«Creo que el posterior paso natural para nuestro laboratorio es ir más allá de los sistemas artificiales y aplicar experimentos similares a la percepción humana», dice Rott Shaham. “Probar esto ha requerido tradicionalmente diseñar y probar estímulos manualmente, lo cual requiere mucha mano de obra. Con nuestro agente podemos avanzar este proceso, diseñando y probando numerosos estímulos simultáneamente. Esto incluso podría permitirnos comparar la percepción visual humana con los sistemas artificiales”.

“Comprender las redes neuronales es difícil para los humanos porque tienen cientos de miles de neuronas, cada una con patrones de comportamiento complejos. MAIA ayuda a exceder esto mediante el incremento de agentes de inteligencia fabricado que pueden analizar automáticamente estas neuronas e informar los hallazgos destilados a los humanos de una modo digerible», dice Jacob Steinhardt, profesor asistente de la Universidad de California en Berkeley, que no participó en la investigación. . «Ampliar estos métodos podría ser una de las rutas más importantes para comprender y supervisar de forma segura los sistemas de IA».

A Rott Shaham y Schwettmann se unen en el artículo cinco compañeros afiliados de CSAIL: el estudiante universitario Franklin Wang; el estudiante entrante del MIT, Achyuta Rajaram; Estudiante de doctorado de EECS Evan Hernandez SM ’22; y los profesores de la EECS Jacob Andreas y Antonio Torralba. Su trabajo fue apoyado, en parte, por el MIT-IBM Watson AI Lab, Open Philanthropy, Hyundai Motor Co., el Army Research Laboratory, Intel, la National Science Foundation, el Zuckerman STEM Leadership Program y la Viterbi Fellowship. Los hallazgos de los investigadores se presentarán esta semana en la Conferencia Internacional sobre Formación Necesario.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *