Optimización de la mandato de incidentes con AIOP utilizando el sistema Triangle

En este blog, nos sumergiremos en cómo los modelos de idiomas grandes, la IA generativa y el sistema Triangle nos ayudan a rendir la automatización y los bucles de feedback para una mandato de incidentes más eficaz.

La reincorporación calidad de servicio es crucial para la confiabilidad de la plataforma Azure y sus cientos de servicios. Monitorear continuamente el servicio de servicio del servicio de plataforma permite a nuestros equipos detectar y mitigar rápidamente incidentes que pueden afectar a nuestros clientes. Adicionalmente de los desencadenantes automatizados en nuestro sistema que reaccionan cuando los umbrales se violan y los incidentes de informes de clientes, empleamos operaciones artificiales basadas en inteligencia (AIOPS) para detectar anomalías. La mandato de incidentes es un proceso difícil, y puede ser un desafío establecer la escalera de Azure, y los equipos involucrados para resolver un incidente de forma eficaz y efectiva con el rico conocimiento del dominio necesario. Le he pedido a nuestro equipo de Azure Core Insights que comparta cómo emplean el sistema Triangle utilizando AIOP para conducir un tiempo más rápido a la resolución para finalmente beneficiar la experiencia del legatario.

—Mark Russinovich, Azure CTO en Microsoft

Optimización de la mandato de incidentes

Los incidentes son administrados por personas responsables designadas (DRI) que tienen la tarea de investigar incidentes entrantes para establecer cómo y quién necesita resolver el incidente. A medida que nuestra cartera de productos se expande, este proceso se vuelve cada vez más difícil a medida que el incidente registrado contra un servicio particular puede no ser la causa raíz y podría provenir de cualquier número de servicios dependientes. Con cientos de servicios en Azure, es casi difícil que cualquier persona tenga conocimiento de dominio en cada dominio. Esto presenta un desafío a la eficiencia del diagnosis manual, lo que resulta en tareas redundantes y un tiempo prolongado para mitigar (TTM). En este blog, nos sumergiremos en cómo los modelos de idiomas grandes, la IA generativa y el sistema Triangle nos ayudan a rendir la automatización y los bucles de feedback para una mandato de incidentes más eficaz.

Los agentes de IA se están volviendo más maduros oportuno a la prosperidad de la capacidad de razonamiento de los grandes modelos de idiomas (LLM), lo que les permite articular todos los pasos involucrados en sus procesos de pensamiento. Tradicionalmente, los LLM se han utilizado para tareas generativas como epítome sin rendir sus capacidades de razonamiento para la toma de decisiones del mundo actual. Vimos un caso de uso para esta capacidad y construimos agentes de IA para tomar las decisiones de asignación iniciales para incidentes, racionar tiempo y acortar la exceso. Estos agentes usan LLM como su cerebro, lo que les permite pensar, razonar y utilizar herramientas para realizar acciones de forma independiente. Con mejores modelos de razonamiento, los agentes de IA ahora pueden planificar de forma más efectiva, superando las limitaciones anteriores en su capacidad para «pensar» de forma integral. Este enfoque no solo mejorará la eficiencia, sino que además mejorará la experiencia genérico del legatario al avalar la resolución más rápida de los incidentes.

Presentación del sistema Triangle

El sistema Triangle es un entorno que emplea a los agentes de IA para incidentes de triaje. Cada agente de IA representa a los ingenieros de un equipo específico y está codificado con el conocimiento del dominio del equipo a los problemas de clasificación. Tiene dos funciones avanzadas: triaje recinto y triaje universal.

Sistema de clasificación recinto

El sistema de clasificación recinto es un entorno de agente único que utiliza un solo agente para representar a cada equipo. Estos agentes individuales proporcionan una valor binaria para aceptar o rebotar un incidente entrante en nombre de su equipo, basado en incidentes históricos y guías de posibilidad de problemas existentes (TSG). Los TSG son un conjunto de pautas que los ingenieros documentan para solucionar problemas de problemas comunes de problemas. Estos TSG se utilizan para capacitar al agente para aceptar o rebotar incidentes y proporcionar el razonamiento detrás de la valor. Adicionalmente, el agente puede avisar el equipo al que se debe transferir el incidente, en función del TSGS.

Como se muestra en la Figura 1, el sistema de clasificación recinto comienza cuando un incidente ingresa a la huesito dulce de incidentes de un equipo de servicio. Basado en la capacitación de incidentes históricos y TSGS, el agente único emplea incrustaciones generativas de transformadores previos al estado previo (GPT) para capturar los significados semánticos de las palabras y las oraciones. La destilación semántica implica extraer información semántica del incidente que está estrechamente relacionado con el incidente tried. El agente único decidirá aceptar o rebotar el incidente. Si se acepta, el agente proporcionará el razonamiento, y el incidente se entregará a un ingeniero para que lo revise. Si se rechaza, el agente lo enviará de reverso al equipo mencionado, transferirá a un equipo indicado por el TSG o lo mantendrá en la huesito dulce para que un ingeniero se resuelva.

Figura 1: Flujo de trabajo del sistema de clasificación recinto

El sistema de clasificación recinto ha estado en producción en Azure desde mediados de 2014. A partir de enero de 2025, 6 equipos están en producción con más de 15 equipos en el proceso de incorporación. Los resultados iniciales son prometedores, y los agentes lograron una precisión del 90% y un equipo vio una reducción en su TTM del 38%, reduciendo significativamente el impacto para los clientes.

Sistema de clasificación universal

El sistema de triaje universal tiene como objetivo enrutar el incidente al equipo correcto. El sistema coordina en todos los agentes individuales a través de un orquestador de múltiples agentes para identificar al equipo al que debe ser enrutado el incidente. Como se muestra en la Figura 2, el orquestador de agentes múltiples selecciona candidatos de equipo adecuados para el incidente entrante, negocia con cada agente para encontrar el equipo correcto, reduciendo aún más TTM. Este es un enfoque similar para los pacientes que ingresan a la sala de emergencias, donde la enfermera evalúa brevemente los síntomas y dirige a cada paciente a su entendido. A medida que desarrollamos aún más el sistema de triaje universal, los agentes continuarán expandiendo sus conocimientos y mejorando sus habilidades para tomar decisiones, mejorando en gran medida no solo la experiencia del legatario al mitigar los problemas de los clientes rápidamente sino además mejorando la productividad del desarrollador al acortar el trabajo manual.

Figura 2: Flujo de trabajo del sistema de triaje universal

Pensando en el futuro

Planeamos ampliar la cobertura agregando más agentes de diferentes equipos que ampliarán la pulvínulo de conocimiento para mejorar el sistema. Algunas de las formas en que planeamos hacer esto incluyen:

Extender el sistema de triaje de incidentes para trabajar para todos los equipos: Al extender el sistema a todos los equipos, nuestro objetivo es mejorar el conocimiento genérico del sistema que le permite manejar una amplia tono de problemas. Crear un enfoque unificado para la mandato de incidentes conduciría a un manejo más eficaz y consistente de los incidentes.
Optimice las LLM para identificar y avisar rápidamente soluciones correlacionando registros de errores con los segmentos de código específicos responsables del problema: La optimización de LLM para identificar, correlacionar y avisar soluciones rápidamente acelerará significativamente el proceso de posibilidad de problemas. Permite que el sistema proporcione recomendaciones precisas, reduciendo el tiempo que los ingenieros gastan en la depuración y conducen a una resolución más rápida de problemas para los clientes.
Expandir los problemas conocidos de la mitigación cibernética: La implementación de un sistema automatizado para mitigar problemas conocidos reducirá TTM mejorando la experiencia del cliente. Esto además reducirá la cantidad de incidentes que requieren intervención manual, lo que permite a los ingenieros concentrarse en deleitar a los clientes.

Primero presentamos AIOP como parte de esta serie de blogs en Febrero de 2020 Cuando destacamos cómo la IA integración en los procesos de la plataforma en la cirro y DevOps de Azure prosperidad la calidad del servicio, la resistor y la eficiencia a través de soluciones esencia que incluyen predicción de defecto de hardware, servicios previos a la prestación y mandato de incidentes basados en IA. AIOPS continúa desempeñando un papel fundamental hoy para predecir, proteger y mitigar fallas e impactos en la plataforma Azure y mejorar la experiencia del cliente.

Al automatizar estos procesos, nuestros equipos están facultados para identificar y invadir rápidamente los problemas, asegurando una experiencia de servicio de reincorporación calidad para nuestros clientes. Las organizaciones que buscan mejorar su propia confiabilidad del servicio y la productividad del desarrollador pueden hacerlo integrando a los agentes de IA en sus procesos de mandato de incidentes diseñados en el sistema Triangle. Repasar el Triángulo: Empoderando el triaje de incidentes con agentes de múltiples llm Documento de Microsoft Research.

Gracias a Azure Core Insights y el equipo M365 por sus contribuciones a este blog: Alison Yao, científica de datos; Madhura Vaidya, ingeniero de software; Chrysmine Wong, jefe de software técnico; Ze Li, principal jefe de científicos de datos; Sarvani Sathish Kumar, jefe principal del software técnico; Murali Chintalapati, Directivo de Ingeniería de Software del Peña Asociado; Minghua MA, investigador principal; y Chetan Bansal, Directivo de Investigación Principal SR.

Etiquetado AIOP, con, gestión, incidentes, Optimización, sistema, Triangle, utilizando

Optimización de la mandato de incidentes con AIOP utilizando el sistema Triangle