Por qué es fundamental ir más allá de las métricas de educación automotriz excesivamente agregadas | Noticiero del MIT

Los investigadores del MIT han identificado ejemplos significativos de fallas en los modelos de educación automotriz cuando esos modelos se aplican a datos distintos a aquellos con los que fueron entrenados, lo que plantea dudas sobre la requisito de realizar pruebas cada vez que se implementa un maniquí en un entorno nuevo.

«Demostramos que incluso cuando se entrenan modelos con grandes cantidades de datos y se elige el mejor maniquí promedio, en un nuevo entorno este ‘mejor maniquí’ podría ser el peor maniquí para entre el 6 y el 75 por ciento de los nuevos datos», dice Marzyeh Ghassemi, profesor asociado en el Área de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT, miembro del Instituto de Ingeniería y Ciencias Médicas e investigador principal del Laboratorio de Sistemas de Información y Osadía.

en un papel que se presentó en la conferencia Neural Information Processing Systems (NeurIPS 2025) en diciembre, los investigadores señalan que los modelos entrenados para diagnosticar eficazmente enfermedades en radiografías de tórax en un hospital, por ejemplo, pueden considerarse efectivos en un hospital diferente, en promedio. Sin bloqueo, la evaluación del desempeño de los investigadores reveló que algunos de los modelos con mejor desempeño en el primer hospital fueron los de peor desempeño en hasta el 75 por ciento de los pacientes en el segundo hospital, aunque cuando se agregan todos los pacientes en el segundo hospital, el suspensión desempeño promedio oculta este fracaso.

Sus hallazgos demuestran que, aunque se cree que las correlaciones espurias (un ejemplo simple de esto es cuando un sistema de educación automotriz, al no poseer «manido» muchas vacas fotografiadas en la playa, clasifica una foto de una vaquilla en la playa como una orca simplemente correcto a sus circunstancias) se mitigan simplemente mejorando el rendimiento del maniquí en los datos observados, en efectividad todavía ocurren y siguen siendo un peligro para la confiabilidad de un maniquí en nuevos entornos. En muchos casos, incluidas áreas examinadas por los investigadores, como radiografías de tórax, imágenes de histopatología del cáncer y detección de discursos de odio, estas correlaciones falsas son mucho más difíciles de detectar.

En el caso de un maniquí de dictamen médico entrenado en radiografías de tórax, por ejemplo, el maniquí puede poseer aprendido a correlacionar una marca específica e irrelevante en las radiografías de un hospital con una determinada patología. En otro hospital donde no se utiliza el traumatizado, esa patología podría pasarse por suspensión.

Investigaciones anteriores realizadas por el familia de Ghassemi han demostrado que los modelos pueden correlacionar falsamente factores como la existencia, el apartado y la raza con hallazgos médicos. Si, por ejemplo, se ha entrenado un maniquí con más radiografías de tórax de personas mayores que tienen pulmonía y no se han “manido” tantas radiografías de personas más jóvenes, podría predecir que sólo los pacientes mayores tienen pulmonía.

«Queremos que los modelos aprendan a observar las características anatómicas del paciente y luego tomar una valentía basada en eso», dice Olawale Salaudeen, postdoctorado del MIT y autor principal del artículo, «pero verdaderamente cualquier cosa que esté en los datos que esté correlacionada con una valentía puede ser utilizada por el maniquí. Y esas correlaciones podrían no ser verdaderamente sólidas con los cambios en el entorno, lo que hace que las predicciones del maniquí sean fuentes poco confiables para la toma de decisiones».

Las correlaciones espurias contribuyen a los riesgos de una toma de decisiones sesgada. En el artículo de la conferencia NeurIPS, los investigadores demostraron que, por ejemplo, los modelos de rayos X de tórax que mejoraron el rendimiento del dictamen militar en efectividad funcionaron peor en pacientes con afecciones pleurales o agrandamiento del cardiomediastino, es aseverar, agrandamiento del corazón o de la cavidad torácica central.

Otros autores del artículo fueron los estudiantes de doctorado Haoran Zhang y Kumail Alhamoud, la profesora asistente de EECS Sara Beery y Ghassemi.

Si perfectamente trabajos anteriores generalmente han aceptado que los modelos ordenados de mejor a peor por desempeño preservarán ese orden cuando se apliquen en nuevos entornos, llamados precisión en la lista, los investigadores pudieron demostrar ejemplos de cuando los modelos de mejor rendimiento en un entorno eran los de peor rendimiento en otro.

Salaudeen ideó un operación llamado OODSelect para encontrar ejemplos en los que se rompiera la precisión en la lista. Básicamente, entrenó miles de modelos utilizando datos en distribución, es aseverar, que los datos procedían de la primera configuración, y calculó su precisión. Luego aplicó los modelos a los datos del segundo marco. Cuando aquellos con anciano precisión en los datos del primer marco se equivocaron cuando se aplicaron a un gran porcentaje de ejemplos en el segundo marco, esto identificó los subconjuntos o subpoblaciones problemáticos. Salaudeen asimismo enfatiza los peligros de las estadísticas agregadas para la evaluación, que pueden oscurecer información más granular y uniforme sobre el desempeño del maniquí.

En el curso de su trabajo, los investigadores separaron los “ejemplos más mal calculados” para no confundir correlaciones espurias internamente de un conjunto de datos con situaciones que son simplemente difíciles de clasificar.

El artículo de NeurIPS publica el código de los investigadores y algunos subconjuntos identificados para trabajos futuros.

Una vez que un hospital, o cualquier ordenamiento que emplee el educación automotriz, identifica los subconjuntos en los que un maniquí tiene un rendimiento deficiente, esa información se puede utilizar para mejorar el maniquí para su tarea y entorno particulares. Los investigadores recomiendan que el trabajo futuro adopte OODSelect para resaltar los objetivos de evaluación y diseñar enfoques para mejorar el desempeño de forma más consistente.

«Esperamos que el código publicado y los subconjuntos de OODSelect se conviertan en un trampolín», escriben los investigadores, «en torno a puntos de remisión y modelos que enfrenten los artículos adversos de las correlaciones espurias».

Etiquetado agregadas, allá, Aprendizaje, Automático, del, excesivamente, fundamental, las, más, métricas, MIT, Noticias, por, Qué

Por qué es fundamental ir más allá de las métricas de educación automotriz excesivamente agregadas | Noticiero del MIT

Deja una respuesta Cancelar la respuesta

COLOMBIA

ENLACES DE INTERÉS