Athrun Data Intelligence



En entornos de detención peligro, como los diagnósticos médicos, los usuarios a menudo quieren enterarse qué llevó a un maniquí de visión por computadora a hacer una determinada predicción, para poder determinar si esperar en su resultado.

El modelado de cuellos de botella conceptuales es un método que permite a los sistemas de inteligencia fabricado explicar su proceso de toma de decisiones. Estos métodos obligan a un maniquí de educación profundo a utilizar un conjunto de conceptos, que los humanos pueden entender, para hacer una predicción. En una nueva investigación, los científicos informáticos del MIT desarrollaron un método que obliga al maniquí a ganar una anciano precisión y explicaciones más claras y concisas.

Los conceptos que utiliza el maniquí suelen estar definidos de antemano por expertos humanos. Por ejemplo, un médico podría sugerir el uso de conceptos como “puntos marrones agrupados” y “pigmentación variada” para predecir que una imagen médica muestra melanoma.

Pero los conceptos previamente definidos podrían ser irrelevantes o carecer de detalles suficientes para una tarea específica, lo que reduce la precisión del maniquí. El nuevo método extrae conceptos que el maniquí ya aprendió mientras fue entrenado para realizar esa tarea en particular y obliga al maniquí a usarlos, produciendo mejores explicaciones que los modelos de cuello de botella de conceptos unificado.

El enfoque utiliza un par de modelos especializados de educación inevitable que extraen automáticamente conocimiento de un maniquí objetivo y lo traducen a conceptos en jerga sencillo. Al final, su técnica puede convertir cualquier maniquí de visión por computadora previamente entrenado en uno que pueda usar conceptos para explicar su razonamiento.

«En cierto sentido, queremos poder deletrear las mentes de estos modelos de visión por computadora. Un maniquí de cuello de botella conceptual es una forma para que los usuarios sepan qué está pensando el maniquí y por qué hizo una determinada predicción. Oportuno a que nuestro método utiliza mejores conceptos, puede conducir a una anciano precisión y, en última instancia, mejorar la responsabilidad de los modelos de IA de caja negra», dice el autor principal Antonio De Santis, estudiante de posgrado de la Universidad Politécnica de Milán que completó esta investigación mientras era estudiante de posgrado visitante en el Laboratorio de Ciencias de la Computación e Inteligencia Fabricado (CSAIL) del MIT.

Él está unido en un documento sobre el trabajo por Schrasing Tong SM ’20, PhD ’26; Ámbito Brambilla, profesor de informática e ingeniería de la Universidad Politécnica de Milán; y la autora principal Lalana Kagal, investigadora científica principal de CSAIL. La investigación se presentará en la Conferencia Internacional sobre Representaciones del Formación.

Construyendo un mejor cuello de botella

Los modelos de cuellos de botella conceptuales (CBM) son un enfoque popular para mejorar la explicabilidad de la IA. Estas técnicas añaden un paso intermedio al imponer a un maniquí de visión por computadora a predecir los conceptos presentes en una imagen y luego usar esos conceptos para hacer una predicción final.

Este paso intermedio, o «cuello de botella», ayuda a los usuarios a comprender el razonamiento del maniquí.

Por ejemplo, un maniquí que identifique especies de aves podría escoger conceptos como “patas amarillas” y “alas azules” ayer de predecir una golondrina global.

Pero conveniente a que estos conceptos a menudo son generados de antemano por humanos o modelos de jerga amplio (LLM), es posible que no se ajusten a la tarea específica. Encima, incluso si se le da un conjunto de conceptos predefinidos, el maniquí a veces utiliza información aprendida no deseada de todos modos, lo cual es un problema conocido como fuga de información.

«Estos modelos están entrenados para maximizar el rendimiento, por lo que el maniquí podría utilizar en secreto conceptos que desconocemos», explica De Santis.

Los investigadores del MIT tuvieron una idea diferente: cubo que el maniquí ha sido entrenado con una gran cantidad de datos, es posible que haya aprendido los conceptos necesarios para originar predicciones precisas para la tarea particular en cuestión. Intentaron construir un CBM extrayendo este conocimiento existente y convirtiéndolo en texto que un ser humano pudiera entender.

En el primer paso de su método, un maniquí especializado de educación profundo llamado codificador inevitable disperso toma selectivamente las características más relevantes que el maniquí aprendió y las reconstruye en un puñado de conceptos. Luego, un LLM multimodal describe cada concepto en un jerga sencillo.

Este LLM multimodal además anota imágenes en el conjunto de datos identificando qué conceptos están presentes y ausentes en cada imagen. Los investigadores utilizan este conjunto de datos anotado para entrenar un módulo de cuello de botella de conceptos para indagar los conceptos.

Incorporan este módulo en el maniquí objetivo, obligándolo a hacer predicciones utilizando nada más el conjunto de conceptos aprendidos que extrajeron los investigadores.

Controlando los conceptos

Superaron muchos desafíos a medida que desarrollaron este método, desde asegurar que el LLM anotara los conceptos correctamente hasta determinar si el codificador inevitable disperso había identificado conceptos comprensibles para los humanos.

Para evitar que el maniquí utilice conceptos desconocidos o no deseados, lo restringen a utilizar sólo cinco conceptos para cada predicción. Esto además obliga al maniquí a designar los conceptos más relevantes y hace que las explicaciones sean más comprensibles.

Cuando compararon su enfoque con los CBM de última procreación en tareas como predecir especies de aves e identificar lesiones cutáneas en imágenes médicas, su método logró la anciano precisión y al mismo tiempo proporcionó explicaciones más precisas.

Su enfoque además generó conceptos que eran más aplicables a las imágenes del conjunto de datos.

«Hemos demostrado que extraer conceptos del maniquí innovador puede aventajar a otros CBM, pero todavía hay un firmeza entre interpretabilidad y precisión que debe abordarse. Los modelos de caja negra que no son interpretables aún superan a los nuestros», afirma De Santis.

En el futuro, los investigadores quieren estudiar posibles soluciones al problema de la fuga de información, tal vez añadiendo módulos adicionales de cuello de botella para que los conceptos no deseados no puedan filtrarse. Incluso planean ampliar su método mediante el uso de un LLM multimodal más amplio para anotar un conjunto de datos de entrenamiento más amplio, lo que podría mejorar el rendimiento.

«Estoy entusiasmado con este trabajo porque lleva la IA interpretable en una dirección muy prometedora y crea un puente natural alrededor de la IA simbólica y los gráficos de conocimiento», afirma Andreas Hotho, profesor y director de la Cátedra de Ciencia de Datos de la Universidad de Würzburg, que no participó en este trabajo. «Al derivar los cuellos de botella de los conceptos de los propios mecanismos internos del maniquí en ocupación de sólo de conceptos definidos por humanos, ofrece un camino alrededor de explicaciones que son más fieles al maniquí y abre muchas oportunidades para el trabajo de seguimiento con conocimiento estructurado».

Esta investigación contó con el apoyo de la chía de doctorado Progetto Rocca, el Empleo italiano de Universidad e Investigación en el ámbito del Plan Doméstico de Recuperación y Resiliencia, Thales Alenia Space y la Unión Europea en el ámbito del esquema NextGenerationEU.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *