Investigadores de Tsinghua y Ant Group presentan un situación de seguridad de cinco capas orientado al ciclo de vida para mitigar las vulnerabilidades de los agentes LLM autónomos en OpenClaw

Los agentes autónomos de LLM como OpenClaw están cambiando el pauta de asistentes pasivos a entidades proactivas capaces de ejecutar tareas complejas y de extenso plazo a través del llegada al sistema con altos privilegios. Sin confiscación, un mensaje de investigación de investigación de seguridad de La Universidad de Tsinghua y Ant Group revelan que la edificio ‘kernel-plugin’ de OpenClaw, anclada por un agente de codificación pi que actúa como Almohadilla de Computación Confiable Mínima (TCB), es inerme a riesgos sistémicos de múltiples etapas que eluden las defensas tradicionales y aisladas.. Al introducir un situación de ciclo de vida de cinco capas que cubre inicialización, entrada, inferencia, atrevimiento y ejecución, el equipo de investigación demuestra cómo amenazas compuestas como el envenenamiento de la memoria y la contaminación de la cautiverio de suministro de habilidades pueden comprometer toda la trayectoria operativa de un agente.

Edificio OpenClaw: el agente de codificación pi y el TCB

OpenClaw utiliza una edificio de ‘complemento de kernel’ que separa la método central de la funcionalidad desplegable. el sistema Almohadilla informática confiable (TCB) está definido por el agente de codificación piun núcleo reducido responsable de la trámite de la memoria, la planificación de tareas y la orquestación de la ejecución. Este TCB gestiona un ecosistema desplegable de complementos (o «habilidades») de terceros que permiten al agente realizar operaciones con altos privilegios, como ingeniería de software automatizada y compañía de sistemas. Una vulnerabilidad arquitectónica crítica identificada por el equipo de investigación es la carga dinámica de estos complementos sin una comprobación estricta de la integridad, lo que crea un coto de confianza ambiguo y expande la superficie de ataque del sistema.

Tabla 1: Amenazas durante todo el ciclo de vida y protecciones correspondientes para OpenClaw “Lobster”
✓ Indica una mitigación efectiva del aventura por parte de la capa de protección.
× Denota riesgos descubiertos por la capa de protección.

Una taxonomía de amenazas orientada al ciclo de vida

El equipo de investigación sistematiza el panorama de amenazas en cinco etapas operativas que se alinean con la cartera utilitario del agente:

Etapa I (Inicialización): El agente establece su entorno operante y límites de confianza cargando avisos del sistema, configuraciones de seguridad y complementos.
Etapa II (entrada): Se ingieren datos multimodales, lo que requiere que el agente diferencie entre instrucciones de adjudicatario confiables y fuentes de datos externas que no son confiables.
Etapa III (Inferencia): El proceso de razonamiento del agente utiliza técnicas como Cautiverio de pensamiento (CoT) indicaciones mientras se mantiene la memoria contextual y se recupera conocimiento foráneo a través de la vivientes de recuperación aumentada.
Etapa IV (Audacia): El agente selecciona las herramientas adecuadas y genera parámetros de ejecución a través de marcos de planificación como Reaccionar.
Etapa V (Ejecución): Los planes de suspensión nivel se convierten en acciones privilegiadas del sistema, lo que requiere estrictos mecanismos de control de llegada y aislamiento para administrar las operaciones.

Este enfoque estructurado destaca que los agentes autónomos enfrentan riesgos sistémicos de múltiples etapas que se extienden más allá de los ataques aislados de inyección rápida.

Estudios de casos técnicos sobre compromiso de agentes

1. Envenenamiento de habilidades (etapa de inicialización)

El envenenamiento de habilidades apunta al agente incluso antiguamente de que comience una tarea. Los adversarios pueden introducir habilidades maliciosas que exploten la capacidad de la interfaz de enrutamiento.

El ataque: El equipo de investigación demostró esto al imponer a OpenClaw a crear una tiento utilitario señal hacked-weather.
Mecanismo: Al manipular los metadatos de la tiento, el atacante elevó artificialmente su prioridad sobre la aparejo meteorológica legítima.
Impacto: Cuando un adjudicatario solicitaba datos meteorológicos, el agente pasaba por suspensión el servicio lícito y activaba el reemplazo taimado, lo que generaba resultados controlados por el atacante.
Predominio: Una auditoría empírica citada en el mensaje de investigación encontró que 26% de las herramientas aportadas por la comunidad contienen vulnerabilidades de seguridad.

Figura 2: Comando de envenenamiento que induce a la “langosta” comprometida a suscitar una tiento climática maliciosa y elevar su prioridad

Figura 3: Diplomacia maliciosa generada por una “langosta” comprometida: estructuralmente válida pero semánticamente subvierte la funcionalidad climática legítima

Figura 4: Solicitud de clima regular secuestrada por una tiento maliciosa: la “langosta” comprometida genera una salida controlada por el atacante

2. Inyección inmediata indirecta (etapa de entrada)

Los agentes autónomos con frecuencia ingieren datos externos que no son de confianza, lo que los hace susceptibles a ataques sin clic.

El ataque: Los atacantes incorporan directivas maliciosas en contenido foráneo, como una página web.
Mecanismo: Cuando el agente recupera la página para cumplir con la solicitud de un adjudicatario, la carga útil incorporada anula el objetivo diferente.
Resultado: En una prueba, el agente ignoró la tarea del adjudicatario de suscitar una cautiverio fija de ‘Hola mundo’ ordenada por el sitio taimado.

Figura 5: Página web diseñada por un atacante que incorpora comandos maliciosos disfrazados de contenido complaciente

Figura 6: La «langosta» comprometida ejecuta comandos integrados al consentir a una página web y genera contenido controlado por el atacante en empleo de satisfacer las solicitudes de los usuarios

3. Envenenamiento de la memoria (etapa de inferencia)

Correcto a que OpenClaw mantiene un estado persistente, es inerme a la manipulación del comportamiento a extenso plazo.

Mecanismo: Un atacante utiliza una inyección transitoria para modificar el archivo MEMORY.md del agente.
El ataque: Se agregó una regla inventada que ordenaba al agente recusar cualquier consulta que contenga el término «C++».
Impacto: Este «ponzoña» persistió a lo extenso de las sesiones; El agente rechazó solicitudes benignas posteriores de programación en C++, incluso a posteriori de que finalizó la interacción del ataque original.

Figura 7: El atacante añade reglas falsificadas a la memoria persistente de la “langosta” comprometida: convierte entradas de ataque transitorias en control de comportamiento a extenso plazo

Figura 8: La «langosta» comprometida rechaza solicitudes de programación benignas de C++ a posteriori del almacenamiento de reglas maliciosas: se adhiere a los comportamientos definidos por el atacante que anulan la intención del adjudicatario

4. Deriva de la intención (etapa de atrevimiento)

La desviación de la intención ocurre cuando una secuencia de llamadas a herramientas localmente justificables conduce a un resultado conjuntamente destructivo.

El marco: Un adjudicatario emitió una solicitud de dictamen para eliminar una «IP de rastreador sospechosa».
La ascenso: El agente identificó de forma autónoma las conexiones IP e intentó modificar el firewall del sistema a través de iptables.
Veredicto del sistema: Posteriormente de varios intentos fallidos de modificar archivos de configuración fuera de su espacio de trabajo, el agente finalizó el proceso en ejecución para intentar un reinicio manual. Esto hizo que la WebUI fuera inaccesible y provocó una interrupción total del sistema.

Figura 9: La “langosta” comprometida se desvía de la tarea de resolución de IP del rastreador tras una orden del adjudicatario: ejecuta el protocolo de autoterminación que anula los objetivos operativos

5. Ejecución de comandos de suspensión aventura (etapa de ejecución)

Esto representa la realización final de un ataque en el que los compromisos anteriores se propagan y generan un impacto concreto en el sistema.

El ataque: Un atacante descompuso un Explosivo de horquilla ataque en cuatro pasos de escritura de archivos individualmente benignos para evitar los filtros estáticos.
Mecanismo: Utilizando codificación Base64 y sed para eliminar caracteres basura, el atacante montó una cautiverio de ejecución profundo en trigger.sh.
Impacto: Una vez activado, el script provocó un cachas aumento en la utilización de la CPU hasta casi el 100% de saturación, lanzando efectivamente un ataque de denegación de servicio contra la infraestructura del host.

Figura 10: El atacante inicia la inyección secuencial de comandos mediante operaciones de escritura de archivos: establece un punto de apoyo para la ejecución estafa en el programador del sistema

Figura 11: El atacante activa la «langosta» comprometida para ejecutar una carga útil maliciosa: induce la parálisis del sistema que conduce a la implosión de la infraestructura crítica

Figura 12: Una “langosta” comprometida desencadena un aumento repentino del agotamiento de los capital del servidor host: implementa un asedio sigiloso de denegación de servicio contra la red troncal informática crítica

La edificio de defensa de cinco capas

El equipo de investigación evaluó las defensas actuales como soluciones puntuales ‘fragmentadas’ y propuso una edificio holística y consciente del ciclo de vida.

(1) Capa almohadilla fundamental:

Establece una raíz de confianza verificable durante la grado de inicio. Utiliza Disección quieto/dinámico (AST) para detectar código no calificado y Firmas criptográficas (SBOM) para compulsar la procedencia de las habilidades.

(2) Capa de percepción de entrada:

Actúa como puerta de enlace para evitar que datos externos se apropien del flujo de control del agente. Hace cumplir una Clasificación de instrucciones mediante etiquetado de tokens criptográficos para priorizar las indicaciones de los desarrolladores sobre el contenido foráneo que no es de confianza.

(3) Capa de estado cognitivo:

Protege la memoria interna y el razonamiento de la corrupción. emplea Estructuras de árbol Merkle para instantáneas de estado y reversiones, adyacente con Codificadores cruzados para calibrar la distancia semántica y detectar la deriva del contexto.

(4) Capa de adscripción de decisiones:

Garantiza que los planes sintetizados se alineen con los objetivos del adjudicatario antiguamente de tomar cualquier obra. incluye Comprobación formal utilizando solucionadores simbólicos para demostrar que las secuencias propuestas no violan los invariantes de seguridad.

(5) Capa de control de ejecución:

Sirve como coto final de aplicación utilizando un pauta de «suponer incumplimiento». Proporciona aislamiento mediante Sandboxing a nivel de kernel utilizando eBPF y segundo para interceptar llamadas no autorizadas al sistema a nivel del sistema operante

Conclusiones secreto

Los agentes autónomos amplían la superficie de ataque mediante ejecución con altos privilegios y memoria persistente. A diferencia de las aplicaciones LLM sin estado, agentes como OpenClaw dependen de la integración entre sistemas y la memoria a extenso plazo para ejecutar tareas complejas y de extenso plazo. Esta naturaleza proactiva introduce riesgos sistémicos únicos en múltiples etapas que abarcan todo el ciclo de vida operante, desde la inicialización hasta la ejecución.
Los ecosistemas de habilidades enfrentan importantes riesgos en la cautiverio de suministro. Aproximadamente 26% de las herramientas aportadas por la comunidad en los ecosistemas de habilidades de los agentes contienen vulnerabilidades de seguridad. Los atacantes pueden utilizar el «envenenamiento de habilidades» para inyectar herramientas maliciosas que parecen legítimas pero que contienen anulaciones de prioridad ocultas, lo que les permite secuestrar silenciosamente las solicitudes de los usuarios y producir resultados controlados por el atacante.
La memoria es un vector de ataque persistente y peligroso. La memoria persistente permite que las entradas adversas transitorias se transformen en control conductual a extenso plazo. A través del envenenamiento de la memoria, un atacante puede implantar reglas de políticas inventadas en la memoria de un agente (por ejemplo, MEMORY.md), lo que hace que el agente rechace persistentemente solicitudes benignas incluso a posteriori de que la sesión de ataque original haya finalizado.
Las instrucciones ambiguas conducen a una destructiva «desviación de intenciones». Incluso sin una manipulación maliciosa explícita, los agentes pueden estudiar una desviación de la intención, donde una secuencia de llamadas a herramientas localmente justificables conduce a resultados conjuntamente destructivos. En casos documentados, las solicitudes de seguridad de dictamen principal escalaron hasta modificaciones no autorizadas del firewall y terminaciones de servicios que dejaron todo el sistema inaccesible.
La protección eficaz requiere una edificio de defensa en profundidad que tenga en cuenta el ciclo de vida. Las defensas basadas en puntos existentes, como los filtros de entrada simples, son insuficientes contra ataques intertemporales y de múltiples etapas. Se debe integrar una defensa sólida en las cinco capas del ciclo de vida del agente: Almohadilla fundacional (comprobación de complementos), Percepción de entrada (clasificación de instrucciones), Estado cognitivo (integridad de la memoria), Formación de decisiones (comprobación del plan), y Control de ejecución (zona de pruebas a nivel de kernel a través de eBPF).

Probar Papel. Encima, no dudes en seguirnos en Gorjeo y no olvides unirte a nuestro SubReddit de más de 120.000 ml y suscríbete a nuestro boletín. ¡Esperar! estas en telegrama? Ahora incluso puedes unirte a nosotros en Telegram.

_{Nota: este artículo cuenta con el respaldo y la provisión de Ant Research.}

Etiquetado agentes, Ant, autónomos, capas, ciclo, cinco, Group, investigadores, las, LLM, los, marco, mitigar, OpenClaw, orientado, para, presentan, seguridad, Tsinghua, vida, vulnerabilidades

COLOMBIA

ENLACES DE INTERÉS