La privacidad de los datos viene con un costo. Existen técnicas de seguridad que protegen los datos confidenciales del beneficiario, como las direcciones de los clientes, de los atacantes que pueden intentar extraerlos de los modelos de IA, pero a menudo hacen que esos modelos sean menos precisos.
Los investigadores del MIT desarrollaron recientemente un situación, basado en un nueva métrica de privacidad Llamado PAC Privacy, que podría persistir el rendimiento de un maniquí de IA al tiempo que garantiza datos confidenciales, como imágenes médicas o registros financieros, permanecen a incólume de los atacantes. Ahora, han llevado este trabajo un paso más allá al hacer que su técnica sea más válido computacionalmente, mejorando la compensación entre precisión y privacidad, y creando una plantilla formal que puede estar de moda para privatizar prácticamente cualquier operación sin carestia de camino a los trabajos internos de ese operación.
El equipo utilizó su nueva interpretación de PAC Privacy para privatizar varios algoritmos clásicos para el investigación de datos y las tareas de educación automotriz.
Incluso demostraron que los algoritmos más «estables» son más fáciles de privatizar con su método. Las predicciones de un operación estable siguen siendo consistentes incluso cuando sus datos de entrenamiento están levemente modificados. Una longevo estabilidad ayuda a un operación a hacer predicciones más precisas en los datos previamente no vistos.
Los investigadores dicen que la longevo eficiencia del nuevo situación de privacidad de PAC, y la plantilla de cuatro pasos que uno puede seguir para implementarla, facilitaría la técnica de implementar en situaciones del mundo positivo.
«Tendemos a considerar la robustez y la privacidad como no relacionados, o tal vez incluso en conflicto con, construyendo un operación de stop rendimiento. Primero, hacemos un operación de trabajo, luego lo hacemos robusto y luego privado. Hemos demostrado que eso no siempre es el situación correcto. Si usted hace que su operación sea mejor en una variedad de entornos, puede ser esencialmente privilegiado de autónomo», dice el situación correcto. estudiante reconocido y autor principal de un Documento sobre este situación de privacidad.
Se une en el boletín por Hanshen Xiao PhD ’24, quien comenzará como profesora asistente en la Universidad de Purdue en el otoño; y el autor senior Srini Devadas, el profesor de ingeniería eléctrica de Edwin Sibley Webster en el MIT. La investigación se presentará en el Simposio IEEE sobre seguridad y privacidad.
Estimación del ruido
Para proteger los datos confidenciales que se usaron para entrenar un maniquí de IA, los ingenieros a menudo agregan ruido, o aleatoriedad genérica, al maniquí, por lo que se vuelve más difícil para un adversario adivinar los datos de entrenamiento originales. Este ruido reduce la precisión de un maniquí, por lo que cuanto menos ruido se pueda pegar, mejor.
PAC Privacy estima automáticamente la pequeño cantidad de ruido que uno debe pegar a un operación para conquistar un nivel de privacidad deseado.
El operación innovador de PAC Privacy ejecuta el maniquí de IA de un beneficiario muchas veces en diferentes muestras de un conjunto de datos. Mide la varianza, así como las correlaciones entre estos muchos resultados y utiliza esta información para estimar cuánto ruido se debe pegar para proteger los datos.
Esta nueva transformación de la privacidad de PAC funciona de la misma forma, pero no necesita representar toda la matriz de correlaciones de datos en las horizontes; Solo necesita las variaciones de salida.
«Adecuado a que lo que está estimando es mucho, mucho más pequeño que toda la matriz de covarianza, puede hacerlo mucho, mucho más rápido», explica Sridhar. Esto significa que uno puede prosperar a conjuntos de datos mucho más grandes.
Adicionar ruido puede dañar la utilidad de los resultados, y es importante minimizar la pérdida de servicios públicos. Adecuado al costo computacional, el operación innovador de privacidad PAC se limitó a pegar ruido isotrópico, que se agrega uniformemente en todas las direcciones. Adecuado a que la nueva transformación estima el ruido anisotrópico, que se adapta a características específicas de los datos de entrenamiento, un beneficiario podría pegar menos ruido militar para conquistar el mismo nivel de privacidad, lo que aumenta la precisión del operación privatizado.
Privacidad y estabilidad
Mientras estudiaba la privacidad de PAC, Sridhar planteó la hipótesis de que los algoritmos más estables serían más fáciles de privatizar con esta técnica. Ella usó la transformación más válido de la privacidad de PAC para probar esta teoría en varios algoritmos clásicos.
Los algoritmos que son más estables tienen menos varianza en sus horizontes cuando sus datos de entrenamiento cambian levemente. PAC Privacy divide un conjunto de datos en trozos, ejecuta el operación en cada fragmento de datos y mide la varianza entre las horizontes. Cuanto longevo sea la varianza, más ruido se debe pegar para privatizar el operación.
Consumir técnicas de estabilidad para disminuir la varianza en las horizontes de un operación todavía reduciría la cantidad de ruido que debe agregarse para privatizarlo, explica.
«En los mejores casos, podemos obtener estos escenarios de ganar-ganar», dice ella.
El equipo demostró que estas garantías de privacidad se mantuvieron fuertes a pesar del operación que probaron, y que la nueva transformación de la privacidad de PAC requería un orden de magnitud menos pruebas para estimar el ruido. Incluso probaron el método en simulaciones de ataque, lo que demuestra que sus garantías de privacidad podrían soportar ataques de última coexistentes.
«Queremos explorar cómo los algoritmos podrían ser codiseñados con la privacidad de PAC, por lo que el operación es más estable, seguro y robusto desde el principio», dice Devadas. Los investigadores todavía quieren probar su método con algoritmos más complejos y explorar más a fondo la compensación de la privacidad-utilidad.
«La pregunta ahora es: ¿cuándo suceden estas situaciones de ganar-ganar y cómo podemos hacer que sucedan con más frecuencia?» Sridhar dice.
«Creo que la preeminencia esencia de la privacidad PAC tiene en esta configuración sobre otras definiciones de privacidad es que es un cuadro infausto: no necesita analizar manualmente cada consulta individual para privatizar los resultados. Se puede hacer completamente automáticamente. Wisconsin en Madison, quien no participó en este estudio.
Esta investigación es apoyada, en parte, por Cisco Systems, Haber One, el Área de Defensa de los Estados Unidos y una subvención MathWorks.