Inclusión: Agentes personales de LLM y riesgos de privacidad
Los LLM se implementan como asistentes personales, obteniendo ataque a datos confidenciales del agraciado a través de agentes personales de LLM. Esta implementación plantea preocupaciones sobre la comprensión de la privacidad contextual y la capacidad de estos agentes para determinar cuándo compartir información específica del agraciado es apropiada. Los grandes modelos de razonamiento (LRMS) plantean desafíos a medida que operan a través de procesos opacos no estructurados, lo que no está claro cómo la información confidencial fluye de entrada a salida. Los LRM utilizan trazas de razonamiento que hacen que la protección de la privacidad compleja. La investigación contemporáneo examina la memorización en el tiempo de capacitación, la fuga de privacidad y la privacidad contextual en inferencia. Sin secuestro, no analizan las huellas de razonamiento como vectores de amenaza explícitos en agentes personales con LRM.
Trabajo relacionado: puntos de relato y marcos para la privacidad contextual
La investigación previa aborda la privacidad contextual en LLM a través de varios métodos. Los marcos de integridad contextual definen la privacidad a medida que el flujo de información adecuado internamente de los contextos sociales, lo que lleva a puntos de relato como decodingtrust, airgapagent, confaide, privaci e CI-bench que evalúan la añadidura contextual a través de indicaciones estructuradas. Privacylens y AgentDam simulan tareas de agente, pero todos se dirigen a los modelos que no son de condición. Computación de tiempo de prueba (TTC) permite un razonamiento estructurado en el momento de la inferencia, con LRM como Deepseek-R1 que extiende esta capacidad a través del entrenamiento RL. Sin secuestro, las preocupaciones de seguridad permanecen en los modelos de razonamiento, ya que los estudios revelan que los LRM como Deepseek-R1 producen rastros de razonamiento que contienen contenido dañino a pesar de las respuestas finales seguras.
Contribución de la investigación: Evaluación de LRM para la privacidad contextual
Investigadores de Parameter Lab, la Universidad de Mannheim, la Universidad Técnica de Darmstadt, el Laboratorio de AI de Naver, la Universidad de Tubingen y el Centro Tubingen AI presentan la primera comparación de LLM y LRM como agentes personales, revelando que si correctamente LRMS superan los LLM en la utilidad, esta preeminencia no se extiende a la protección de la privacidad. El estudio tiene tres contribuciones principales que abordan las brechas críticas en la evaluación del maniquí de razonamiento. Primero, establece una evaluación de privacidad contextual para LRM utilizando dos puntos de relato: AirGapagent-R y AgentDam. En segundo zona, revela rastros de razonamiento como una nueva superficie de ataque de privacidad, lo que demuestra que los LRM tratan sus rastros de razonamiento como bolsas de arena privadas. En tercer zona, investiga los mecanismos subyacentes a la fuga de privacidad en los modelos de razonamiento.

Metodología: configuración de evaluación de privacidad de perforación y agente
La investigación utiliza dos configuraciones para evaluar la privacidad contextual en los modelos de razonamiento. La configuración de perforación utiliza consultas específicas y de dorso única que usan AirGapagent-R para probar la comprensión explícita de la privacidad basada en la metodología pública de los autores originales, de guisa apto. El entorno de agente utiliza el AgentDam para evaluar la comprensión implícita de la privacidad en tres dominios: compras, reddit y gitlab. Adicionalmente, la evaluación utiliza 13 modelos que van desde 8B a los parámetros de más de 600B, agrupados por el índole habitual. Los modelos incluyen Vanilla LLMS, modelos de vainica prometidos por cuna y LRMS, con variantes destiladas como los modelos LLAMA y QWEN con sede en Deepseek R1. En el perforación, se le pide al maniquí que implemente técnicas de solicitud específicas para permanecer el pensamiento internamente de las etiquetas designadas y anonimizar datos confidenciales utilizando marcadores de posición.
Examen: Tipos y mecanismos de fuga de privacidad en LRMS
La investigación revela diversos mecanismos de fuga de privacidad en LRM a través del exploración de procesos de razonamiento. La categoría más frecuente es la comprensión del contexto incorrecto, que representa el 39.8% de los casos, donde los modelos malinterpretan los requisitos de tareas o las normas contextuales. Un subconjunto significativo implica una sensibilidad relativa (15.6%), donde los modelos justifican compartir información basada en clasificaciones de sensibilidad vistas de diferentes campos de datos. El comportamiento de buena fe es el 10.9% de los casos, donde los modelos asumen que la divulgación es aceptable simplemente porque alguno solicita información, incluso de actores externos que se presume confiable. El razonamiento cliché ocurre en el 9.4% de las instancias, donde las secuencias de pensamiento interno se desangran en respuestas finales, violando la separación prevista entre razonamiento y respuesta.
Conclusión: seguridad de utilidad y privacidad en modelos de razonamiento
En conclusión, los investigadores introdujeron el primer estudio que examinó cómo los LRM manejan la privacidad contextual tanto en el perforación como en los entornos de agente. Los hallazgos revelan que el aumento del presupuesto de tiempo de cálculo de tiempo de prueba mejoramiento la privacidad en las respuestas finales, pero mejoramiento los procesos de razonamiento de manejable ataque que contienen información confidencial. Existe una privación urgente de futuras estrategias de mitigación y columna que protejan tanto los procesos de razonamiento como los resultados finales. Adicionalmente, el estudio está pequeño por su enfoque en los modelos de código amplio y el uso de configuraciones de perforación en zona de configuraciones totalmente agentes. Sin secuestro, estas opciones permiten una cobertura del maniquí más amplia, garantizan la experimentación controlada y promueven la transparencia.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este esquema. Adicionalmente, siéntete evadido de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.
Sajjad Ansari es un pregrado de extremo año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo positivo. Su objetivo es articular conceptos complejos de IA de guisa clara y accesible.