Los modelos de visión biomédicos se utilizan cada vez más en entornos clínicos, pero un desafío importante es su incapacidad para generalizarse de guisa efectiva conveniente a cambios de conjuntos de datos—Discrepancias entre los datos de entrenamiento y los escenarios del mundo efectivo. Estos cambios surgen de diferencias en la adquisición de imágenes, cambios en las manifestaciones de las enfermedades y variación de la población. Como resultado, los modelos entrenados con conjuntos de datos limitados o sesgados a menudo funcionan mal en aplicaciones del mundo efectivo, lo que representa un aventura para la seguridad del paciente. El desafío radica en desarrollar métodos para identificar y tocar estos sesgos antaño de que los modelos se implementen en entornos clínicos, garantizando que sean lo suficientemente sólidos para manejar la complejidad y variabilidad de los datos médicos.
Las estrategias actuales para tocar los cambios en los conjuntos de datos a menudo implican el uso de datos sintéticos generados por modelos de educación profundo como las GAN y los modelos de difusión. Si perfectamente estos enfoques se han mostrado prometedores en la simulación de nuevos escenarios, están plagados de varias limitaciones. Métodos como LANCE y DiffEdit, que intentan modificar características específicas interiormente de imágenes médicas, a menudo introducen cambios no deseados, como alterar características anatómicas no relacionadas o introducir artefactos visuales. Estas inconsistencias reducen la confiabilidad de estas técnicas en modelos de pruebas de estrés para aplicaciones médicas del mundo efectivo. Por ejemplo, un enfoque basado en una única máscara como DiffEdit lucha contra correlaciones falsas, lo que provoca que las características secreto se alteren incorrectamente, lo que limita su efectividad.
Un equipo de investigadores de Microsoft Health Futures, la Universidad de Edimburgo, la Universidad de Cambridge, la Universidad de California y la Universidad de Stanford proponen Radun novedoso enfoque de tiraje de imágenes basado en difusión diseñado específicamente para tocar las deficiencias de los métodos anteriores. RadEdit utiliza múltiples máscaras de imágenes para controlar con precisión qué regiones de una imagen médica se editan y al mismo tiempo preserva la integridad de las áreas circundantes. Este ámbito de máscaras múltiples garantiza que se eviten correlaciones espurias, como la coexistencia de drenajes torácicos y neumotórax en las radiografías de tórax, manteniendo la coherencia visual y estructural de la imagen. La capacidad de RadEdit para difundir conjuntos de datos sintéticos de ingreso fidelidad le permite disimular cambios en conjuntos de datos del mundo efectivo, exponiendo así modos de equivocación en modelos de visión biomédica. Este método propuesto presenta una contribución significativa a los modelos de pruebas de estrés bajo condiciones de adquisición, manifestación y cambios de población, ofreciendo una decisión más precisa y sólida.
RadEdit se base en un maniquí de difusión profundo entrenado en más de 487 000 imágenes de rayos X de tórax de grandes conjuntos de datos, incluidos MIMIC-CXR, ChestX-ray8 y CheXpert. El sistema aprovecha máscaras duales: una máscara de tiraje para las regiones que se van a modificar y una máscara de conservación para las áreas que deben permanecer inalteradas. Este diseño garantiza que las ediciones se localicen sin alterar otras estructuras anatómicas críticas, lo cual es crucial en aplicaciones médicas. RadEdit utiliza el maniquí BioViL-T, un maniquí de visión y verbo de dominio específico para imágenes médicas, para evaluar la calidad de sus ediciones a través de puntuaciones de columna de imagen y texto, asegurando que las imágenes sintéticas representen con precisión condiciones médicas sin introducir artefactos visuales.
La evaluación de RadEdit demostró su efectividad en las pruebas de estrés de modelos de visión biomédicos en tres escenarios de cambio de conjuntos de datos. En el turno de adquisición En las pruebas, RadEdit expuso una caída significativa del rendimiento en un clasificador COVID-19 débil, con una precisión que cayó del 99,1 % en datos de entrenamiento sesgados a solo el 5,5 % en datos de pruebas sintéticos, lo que revela la dependencia del maniquí de factores de confusión. Para cambio de manifestacióncuando se eliminó el neumotórax mientras se conservaban los drenajes torácicos, la precisión del clasificador cayó del 93,3% al 17,9%, lo que destaca su incapacidad para distinguir entre la enfermedad y los artefactos del tratamiento. En el cambio de población En este tablado, RadEdit agregó anomalías a las radiografías de pulmones sanos, lo que provocó disminuciones sustanciales en el rendimiento del maniquí de segmentación, particularmente en las puntuaciones de Dice y las métricas de error. Sin confiscación, los modelos más sólidos entrenados con datos diversos mostraron una viejo resiliencia en todos los turnos, lo que subraya la capacidad de RadEdit para identificar las vulnerabilidades del maniquí y evaluar la solidez en diversas condiciones.
En conclusión, RadEdit representa un enfoque renovador para probar modelos de visión biomédicos mediante la creación de conjuntos de datos sintéticos realistas que simulan cambios críticos en los conjuntos de datos. Al disfrutar múltiples máscaras y tiraje destacamento basada en difusión, RadEdit mitiga las limitaciones de los métodos anteriores, asegurando que las ediciones sean precisas y se minimicen los artefactos. RadEdit tiene el potencial de mejorar significativamente la solidez de los modelos médicos de IA, mejorando su aplicabilidad en el mundo efectivo y, en última instancia, contribuyendo a sistemas de atención médica más seguros y eficaces.
Mira el Papel y Detalles. Todo el crédito por esta investigación va a los investigadores de este plan. Por otra parte, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Gren lo alto. No olvides unirte a nuestro SubReddit de más de 50.000 ml.
Suscríbase al boletín de ML de más rápido crecimiento con más de 26.000 suscriptores
Aswin AK es pasante de consultoría en MarkTechPost. Está cursando su doble titulación en el Instituto Indio de Tecnología de Kharagpur. Le apasiona la ciencia de datos y el educación instintivo, y aporta una sólida formación académica y experiencia maña en la resolución de desafíos interdisciplinarios de la vida efectivo.