Los modelos de idiomas grandes (LLM) se están volviendo integrales para la tecnología moderna, lo que impulsa sistemas de agente que interactúen dinámicamente con entornos externos. A pesar de sus impresionantes capacidades, los LLM son mucho vulnerables a ataques de inyección inmediatos. Estos ataques ocurren cuando los adversarios inyectan instrucciones maliciosas a través de fuentes de datos no confiables, con el objetivo de comprometer el sistema extrayendo datos confidenciales o ejecutando operaciones dañinas. Los métodos de seguridad tradicionales, como la capacitación maniquí y la ingeniería rápida, han mostrado una efectividad limitada, lo que subraya la escazes urgente de defensas robustas.
Los investigadores de Google Deepmind proponen Camel, una defensa robusta que crea una capa de sistema de protección aproximadamente del LLM, asegurándolo incluso cuando los modelos subyacentes pueden ser susceptibles a los ataques. A diferencia de los enfoques tradicionales que requieren modificaciones de reentrenamiento o maniquí, Camel presenta un nuevo modelo inspirado en las prácticas probadas de seguridad de software. Extrae explícitamente el control y los flujos de datos de las consultas de los usuarios, asegurando que las entradas no confiables nunca alteren la razonamiento del software directamente. Este diseño aísla datos potencialmente dañinos, evitando que influya en los procesos de toma de decisiones inherentes a los agentes de LLM.
Técnicamente, Camel funciona al invertir una construcción de doble maniquí: un LLM privilegiado y un LLM en cuarentena. El LLM privilegiado comparsa la tarea militar, aislando operaciones confidenciales de datos potencialmente dañinos. La LLM en cuarentena procesa los datos por separado y está explícitamente despojado de capacidades de señal de herramientas para delimitar el daño potencial. Camel fortalece aún más la seguridad asignando metadatos o «capacidades» a cada valía de datos, definiendo políticas estrictas sobre cómo se puede utilizar cada información. Un intérprete de Python personalizado hace cumplir estas políticas de seguridad de pellizco fino, monitoreando la procedencia de datos y garantizando el cumplimiento a través de limitaciones explícitas de flujo de control.
Los resultados de la evaluación empírica utilizando el punto de narración de Agentdojo resaltan la efectividad de Camel. En las pruebas controladas, Camel frustró con éxito ataques de inyección inmediata al hacer cumplir las políticas de seguridad a nivel granular. El sistema demostró la capacidad de ayudar la funcionalidad, resolviendo el 67% de las tareas de forma segura internamente del entorno AgentDojo. En comparación con otras defensas como «Sandwiching rápido» y «Detención», Camel superó significativamente en términos de seguridad, proporcionando protección casi total contra los ataques al tiempo que incurre en gastos generales moderados. La sobrecarga se manifiesta principalmente en el uso de tokens, con aproximadamente un aumento de 2.82 × en tokens de entrada y un aumento de 2.73 × en los tokens de salida, aceptables teniendo en cuenta las garantías de seguridad proporcionadas.
Encima, Camel aborda las vulnerabilidades sutiles, como las manipulaciones de flujo de datos a controles, al dirigir estrictamente las dependencias a través de sus políticas basadas en metadatos. Por ejemplo, un círculo en el que un adversario intenta usar las instrucciones de aspecto benigna de los datos de correo electrónico para controlar el flujo de ejecución del sistema se mitigará de guisa efectiva por los rigurosos mecanismos de etiquetado de datos y aplicación de políticas de Camel. Esta protección integral es esencial, hexaedro que los métodos convencionales pueden no cachear tales amenazas de manipulación indirecta.
En conclusión, Camel representa un avance significativo en la logro de sistemas de agente impulsados por LLM. Su capacidad de hacer cumplir con robuste las políticas de seguridad sin alterar el LLM subyacente ofrece un enfoque poderoso y flexible para defenderse contra ataques de inyección rápidos. Al adoptar los principios de la seguridad del software tradicional, Camel no solo mitiga los riesgos de inyección rápida explícita sino todavía salvaguardas contra ataques sofisticados que aprovechan la manipulación de datos indirectos. A medida que la integración de LLM se expande en aplicaciones sensibles, la acogida de Camel podría ser positivo para ayudar la confianza del agraciado y certificar interacciones seguras internamente de los ecosistemas digitales complejos.
Probar el Papel. Todo el crédito por esta investigación va a los investigadores de este tesina. Encima, siéntete librado de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como patrón e ingeniero iluminado, ASIF se compromete a usar el potencial de la inteligencia fabricado para el acertadamente social. Su esfuerzo más flamante es el tiro de una plataforma de medios de inteligencia fabricado, MarktechPost, que se destaca por su cobertura profunda de noticiero de estudios necesario y de estudios profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el conocido.