Desidentificación de imágenes médicas de forma rentable con modelos de habla de visión en Databricks

Por qué la aprieto de una desidentificación de imágenes escalable

Las imágenes médicas, como los rayos X y las resonancias magnéticas, adicionalmente de ayudar en el dictamen, la planificación del tratamiento y el seguimiento de enfermedades, se utilizan cada vez más más allá de la atención individual del paciente para informar investigaciones médicas más amplias, políticas de vigor pública y el avance de nuevas herramientas de dictamen basadas en inteligencia fabricado. Este uso secundario de registros médicos, si proporcionadamente es inmensamente caritativo, debe someterse a una desidentificación de la información médica protegida (PHI) para garantizar la privacidad del paciente y cumplir con regulaciones como HIPAA.

La creciente escalera de conjuntos de datos de imágenes médicas requiere métodos de desidentificación confiables y eficientes, que garanticen que las imágenes puedan estilarse de forma segura y ética para avanzar en la ciencia médica. Con este fin, presentamos el acelerador de soluciones Pixels con un canal Spark ML que aprovecha los modelos de habla de visión (VLM) en paralelo para desidentificar imágenes médicas en el formato ampliamente utilizado, imágenes digitales y comunicaciones en medicina (DICOM).

Un archivo DICOM contiene imágenes y texto de metadatos (adivinar más aquí). Aquí, nos centramos en nuestra nueva función de desidentificación de imágenes. Vale la pena señalar que Pixels, nuestro conjunto de herramientas DICOM, incluso anonimiza los metadatos adicionalmente de la ingesta y segmentación DICOM escalables, todo interiormente de una aplicación web.

Cómo desidentificar la PHI quemada en imágenes DICOM

Posteriormente de instalar el paquete Python de Pixels, ejecute DicomPhiPipeline como tal:

Lee una ruta de archivo DICOM en una columna en un situación de datos de Spark y genera 2 columnas:

una respuesta de un VLM (especificado en el punto final)
una ruta de archivo DICOM con PHI escondido

Como parte de DicomPhiPipeline, la redacción se realiza mediante EasyOCR. La redacción se puede realizar independientemente de la detección de PHI de VLM (redact_even_if_undetected=True) o se puede realizar de forma condicional a la detección de PHI de VLM (redact_even_if_undetected=False). Recomendamos lo postrer, ya que EasyOCR tiende a redactar en exceso información que no sea PHI. Al condicionar las imágenes que el VLM ha detectado como PHI positivas, será menos probable que EasyOCR redacte las imágenes que no son PHI.

Comparación con otros métodos de detección de PHI

la competencia

Probamos el proceso de detección de PHI de imágenes de Pixels con un proveedor comercial y una decisión de código extenso ampliamente utilizada. Presidio. Tanto el proveedor como Presidio utilizaron OCR para extraer primero el texto de las imágenes y luego aplicar un maniquí de habla para clasificar si el texto era PHI o no. El OCR integrado incluso segmentó el texto confidencial y aplicó una máscara de relleno interiormente de esos cuadros delimitadores.

Por otra parte, comparamos varios VLM: GPT-4o, Claude 3.7 Sonnet y Ardor 4 Maverick de código extenso.

Conjuntos de datos

La comparación se realizó en conjuntos de datos DICOM públicos, MIDI-B donde redujimos la muestra a 70 imágenes para crear un conjunto de datos ponderado con aproximadamente el mismo número de imágenes con y sin PHI.

Resultados

Tarea: Detección de PHI en imágenes DICOM		MIDI-B (70)
Posibilidad	Estimaciones de costos por 100k imágenes	Rememorar	Precisión	Especificidad	VPN
ISV (comercial)	$4,400 por mes prepago	1.0	0,71	0,93	1.0
Presidio (OSS)	$0	0,7	0,7	0,95	0,95
Soneto de Claudio 3.7	$270	1.0	1.0	1.0	1.0
GPT-4o	$150	1.0	1.0	1.0	1.0
Ardor 4 Maverick (OSS)	$45	1.0	0,91	0,98	1.0

Tanto Claude 3.7 Sonnet como GPT-4o tuvieron un rendimiento consumado en la detección de PHI. Ardor 4 Maverick tuvo un 100% de recuperación pero un 91% de precisión, ya que a veces identifica erróneamente el texto que no es PHI en la imagen como PHI. Sin requisa, Ardor 4-Maverick todavía ofrece un buen rendimiento, especialmente para los usuarios que se inclinan por la redacción excesiva para evitar perder información de vigor. En tal caso, tiene una tasa de omisión falsa de PHI de cero (es opinar, un VPN cercano a 1) y una recuperación de 1, por lo que puede ser un buen compensación entre rendimiento y costo.

En nuestras pruebas, utilizamos Presidio y la decisión comercial relación para usar con la configuración predeterminada. Notamos que el rendimiento en términos de precisión y velocidad dependía en gran medida de la referéndum de OCR. Es probable que su rendimiento pueda mejorarse con alternativas como Inteligencia de documentos de Azure.

Por que funciona

Encuestamos el humanidades sobre la desidentificación del texto fototipia en imágenes médicas y aprendió del éxito reportado del uso de OCR, LLM (por ejemplo, BERT, Bi-LSTM, GPT) y/o VLM. Nuestra valor de utilizar VLM para detectar PHI y EasyOCR para detectar cuadros delimitadores de texto se basó en el éxito informado por Truong et al. 2025.

VLM reemplaza el OCR tradicional deficiente en el registro de texto y a menudo introduce errores tipográficos

En la mayoría de los métodos de desidentificación informados, el OCR se usaba a menudo como primer paso para extraer texto de las imágenes ingresadas en un LLM. Sin requisa, observamos que las herramientas de OCR como tessaract y EasyOCR eran generalmente deficientes y lentas en el registro de texto (es opinar, ojeada), a menudo leían mal ciertos caracteres e inadvertidamente introducían errores tipográficos y comprometían la detección de PHI posterior. Para mitigar esto, utilizamos un VLM para adivinar texto fototipia y clasificar si el texto era PHI; Los VLM fueron sorprendentemente buenos en esto.
EasyOCR para detectar cuadros delimitadores para redacción cuando los VLM no pueden alterar imágenes

Sin requisa, los VLM no pueden difundir imágenes redactadas. Por lo tanto, utilizamos OCR para hacer lo que mejor hacía, es opinar, detectar texto, para proporcionar las coordenadas del cuadro delimitador para el enmascaramiento posterior. Vale la pena señalar que, aunque ha habido intentos recientes de ajustar un VLM para difundir coordenadas del cuadro delimitador Chen et al. 2025optamos por una decisión más sencilla que integra herramientas disponibles en el mercado (VLM, EasyOCR).
Spark paralelismo para escalabilidad a nivel de producción

Si proporcionadamente Databricks tenía una capacidad de inferencia por lotes con LLM (funciones_ai), actualmente carece de soporte para VLM. Como tal, implementamos una lectura escalable para VLM y EasyOCR utilizando Pandas UDF. Al trabajar con un gran cliente farmacéutico, el paralelismo Spark aceleró su proceso de desidentificación de 105 minutos a 6 minutos para una prueba de 1000 fotogramas DICOM. Al ampliar su carga de trabajo total a 100 000 marcos DICOM, la velocidad y el parquedad de costos fueron significativos.

Sinopsis

Poliedro el poder, la facilidad y la heredad de los VLM como lo demuestra el Complementos del acelerador de soluciones Pixels 2.0no solo es factible sino incluso prudente proteger sus estudios clínicos críticos y estudios de imágenes relacionados con detección de PHI escalable.

Si proporcionadamente Pixels está diseñado para archivos DICOM, encontramos que nuestros clientes lo adaptan a otros formatos de imagen como JPEG, imágenes de diapositivas completas, SVS, etc.

Las actualizaciones se publican en nuestro repositorio de github Así que ahora es un buen momento para modernizar o probar el acelerador de soluciones Databricks Pixels 2.0. Comuníquese con su equipo de cuentas de Databricks para analizar sus casos de uso de procesamiento de datos de imágenes y AI/ML. Los autores estarán encantados de asimilar de usted a través de LinkedIn si aún no nos han presentado.

Etiquetado con, Databricks, Desidentificación, forma, imágenes, lenguaje, médicas, modelos, rentable, visión