DrP: la plataforma de observación de causa raíz de Meta a escalera

La investigación de incidentes puede ser una tarea desalentadora en el panorama digital flagrante, donde los sistemas a gran escalera comprenden numerosos componentes y dependencias interconectados.

DrP es una plataforma de observación de causa raíz (RCA), diseñada por Meta, para automatizar mediante programación el proceso de investigación, reduciendo significativamente el tiempo medio de resolución (MTTR) de incidentes y aliviando el trabajo de agente.

Hoy en día, más de 300 equipos en Meta utilizan DrP, ejecutan 50 000 observación diarios y han sido eficaces para sujetar el MTTR entre un 20 % y un 80 %.

Al comprender DrP y sus capacidades, podemos desbloquear nuevas posibilidades para una resolución válido de incidentes y una longevo confiabilidad del sistema.

¿Qué es?

DrP es una plataforma de un extremo a otro que automatiza el proceso de investigación para sistemas a gran escalera. Aborda las ineficiencias de las investigaciones manuales, que a menudo se basan en guías obsoletas y guiones ex profeso. Estos métodos tradicionales pueden provocar tiempos de inactividad prolongados y un aumento del trabajo de agente, ya que los ingenieros pasan incontables horas clasificando y depurando incidentes.

DrP ofrece una opción integral al proporcionar un SDK expresivo y flexible para crear manuales de investigación, conocidos como analizadores. Estos analizadores se ejecutan mediante un sistema backend escalable, que se integra perfectamente con los flujos de trabajo convencionales, como alertas y herramientas de gobierno de incidentes. Por otra parte, DrP incluye un sistema de posprocesamiento para automatizar acciones basadas en los resultados de la investigación, como pasos de mitigación.

Los componentes secreto de DrP incluyen:

SDK expresivo: El SDK de DrP permite a los ingenieros codificar flujos de trabajo de investigación en analizadores. Proporciona un amplio conjunto de bibliotecas auxiliares y algoritmos de enseñanza instintivo (ML) para el llegada a datos y el observación de aislamiento de problemas, como detección de anomalías, aislamiento de eventos, correlación de series temporales y observación de dimensiones.
back-end escalable: El sistema backend ejecuta los analizadores, proporcionando entornos de ejecución aislados y multiinquilino. Garantiza que los analizadores puedan ejecutarse a escalera y manejar miles de observación automatizados por día.
Integración con flujos de trabajo: DrP se integra con herramientas de gobierno de incidentes y alertas, lo que permite la activación cibernética de analizadores en caso de incidentes. Esta integración garantiza que los resultados de la investigación estén disponibles de inmediato para los ingenieros de agente.
Sistema de posprocesamiento: Posteriormente de una investigación, el sistema de posprocesamiento puede tomar acciones automatizadas basadas en los resultados del observación. Por ejemplo, puede crear tareas o solicitudes de cuna para mitigar los problemas identificados durante la investigación.

Cómo funciona

Flujo de trabajo de creación

El proceso de creación de manuales o analizadores automatizados comienza con el SDK de DrP. Los ingenieros enumeran los pasos de la investigación, enumeran los aportes y los caminos potenciales para aislar las áreas problemáticas. El SDK proporciona API y bibliotecas para codificar estos flujos de trabajo, lo que permite a los ingenieros capturar todos los parámetros de entrada y el contexto necesarios de forma segura.

Enumerar los pasos de la investigación.: Los ingenieros comienzan enumerando los pasos necesarios para investigar un incidente, incluidas las entradas y las posibles rutas para aislar el problema.
código de inicio: El SDK de DrP proporciona código de inicio para crear un analizador de plantillas con código repetitivo rellenado previamente. Los ingenieros amplían este código para capturar todos los parámetros de entrada y el contexto necesarios.
Paso y observación de datos.: El SDK incluye bibliotecas para el llegada y observación de datos, como observación de dimensiones y correlación de series temporales. Los ingenieros utilizan estas bibliotecas para codificar el árbol de decisiones de la investigación principal en el analizador.
Encadenamiento de analizadores: Para el observación de servicios dependientes, las API del SDK permiten un encadenamiento fluido de analizadores, pasando contexto y obteniendo resultados.
Salida y posprocesamiento: El método de salida captura los hallazgos del observación, utilizando estructuras de datos especiales para formatos de texto y legibles por máquina. Los métodos de posprocesamiento automatizan acciones basadas en los hallazgos del analizador.

Una vez creados, los analizadores se prueban y se envían para revisión del código. DrP ofrece pruebas retrospectivas automatizadas integradas en herramientas de revisión de código, lo que garantiza analizadores de incorporación calidad antaño de la implementación.

Flujo de trabajo de consumo

En producción, los analizadores se integran con herramientas como UI, CLI, alertas y sistemas de gobierno de incidentes. Los analizadores pueden activarse automáticamente tras la activación de una alerta, proporcionando resultados inmediatos a los ingenieros de agente y mejorando los tiempos de respuesta. El backend de DrP administra una huesito dulce de solicitudes y un reunión de trabajadores para una ejecución segura, y los resultados se devuelven de forma asincrónica.

Integración con alertas: DrP está integrado con sistemas de alerta, lo que permite que los analizadores se activen automáticamente cuando se activa una alerta. Esto proporciona resultados de observación inmediatos a los ingenieros de agente.
Ejecución y seguimiento: El sistema backend gestiona una huesito dulce para solicitudes de analizadores y un reunión de trabajadores para su ejecución. Supervisa la ejecución, garantizando que los analizadores funcionen de forma segura y válido.
Postprocesamiento y conocimientos: Un sistema de posprocesamiento independiente maneja los resultados del observación y anota alertas con hallazgos. El sistema DrP Insights analiza periódicamente los resultados para identificar y clasificar las principales causas de alerta, ayudando a los equipos a priorizar las mejoras de confiabilidad.

Por qué es importante

Aminorar el MTTR

DrP ha demostrado mejoras significativas en la reducción del MTTR en varios equipos y casos de uso. Al automatizar las investigaciones manuales, DrP permite una clasificación y mitigación más rápida de incidentes, lo que lleva a una recuperación más rápida del sistema y una mejor disponibilidad.

Eficiencia: Las investigaciones automatizadas reducen el tiempo que los ingenieros dedican a la clasificación manual, lo que les permite centrarse en tareas más complejas. Esta eficiencia se traduce en una resolución de incidentes más rápida y un tiempo de inactividad estrecho.
Consistencia: Al codificar los flujos de trabajo de investigación en analizadores, DrP garantiza investigaciones consistentes y repetibles. Esta coherencia reduce la probabilidad de errores y restablecimiento la confiabilidad de la resolución de incidentes.
Escalabilidad: DrP puede manejar miles de observación automatizados por día, lo que lo hace adecuado para sistemas a gran escalera con dependencias complejas. Su escalabilidad garantiza que pueda satisfacer las deposición de organizaciones en crecimiento.

Restablecimiento de la productividad de agente

La automatización proporcionada por DrP reduce el esfuerzo del personal de agente durante las investigaciones, lo que ahorra horas de ingeniería y reduce la sufrimiento del personal de agente. Al automatizar pasos repetitivos y que consumen mucho tiempo, DrP permite a los ingenieros centrarse en tareas más complejas, mejorando la productividad común.

Escalabilidad y acogida

DrP se ha implementado con éxito a escalera en Meta, cubriendo más de 300 equipos y 2000 analizadores, ejecutando 50 000 observación automatizados por día. Su integración en los flujos de trabajo convencionales, como los sistemas de alerta, ha facilitado su acogida generalizada y ha demostrado su valía en escenarios del mundo auténtico.

Prohijamiento generalizada: DrP ha sido adoptivo por cientos de equipos en diversos dominios, lo que demuestra su versatilidad y aptitud para encarar diversas deposición de investigación.
Impacto probado: DrP ha estado en producción durante más de cinco abriles, con resultados comprobados en la reducción del MTTR y la restablecimiento de la productividad de agente. Su impacto se evidencia en el feedback positivo recibido por parte de los usuarios y en las importantes mejoras en los tiempos de resolución de incidencias.
Restablecimiento continua: DrP evoluciona continuamente, con mejoras continuas en sus algoritmos de enseñanza instintivo, SDK, sistema backend e integraciones. Este compromiso con la restablecimiento continua garantiza que DrP siga siendo una opción de vanguardia para las investigaciones de incidentes, mientras que su creciente acogida entre equipos permite que otros reutilicen los flujos de trabajo y analizadores existentes, lo que agrava la almohadilla de conocimientos compartidos y la hace cada vez más valiosa en toda la estructura.

¿Qué sigue?

De cara al futuro, DrP pretende transformarse alrededor de una plataforma nativa de IA, desempeñando un papel central en el avance de la visión AI4Ops más amplia de Meta.permitiendo investigaciones más potentes y automatizadas. Esta transformación mejorará el observación al ofrecer resultados más precisos y reveladores, al mismo tiempo que simplificará la experiencia del becario a través de algoritmos de enseñanza instintivo optimizados, SDK, UI e integraciones que facilitan la creación y ejecución de analizadores sin esfuerzo.

Ojear el documento

DrP: la plataforma de investigaciones válido de Meta a escalera

Expresiones de agradecimiento

Deseamos devolver a los contribuyentes a este esfuerzo en muchos equipos en todo Meta.

Equipo – Eduardo Hernández, Jimmy WangAkash Jothi, Kshitiz Bhattarai, Shreya Shah, Neeru SharmaAlex He, Juan-Pablo E, Oswaldo R, Vamsi Kunchaparthi, Daniel An, Rakesh Vanga, Ankit Agarwal, Narayanan Sankaran, Vlad Tsvang, Khushbu Thakur, Srikanth KamathChris Davis, Rohit J.V., Ohad YahalomBao Nguyen, Viraaj Navelkar, Arturo Lira, Nikolay Laptev, Sean Lee, Yulin Chen

Liderazgo: Sanjay Sundarajan, John Ehrhardt, Ruben Badaro, Nitin GuptaConquista Dudín, Menor RenardGautam Shanbhag, Barak Yagour, Aparna Ramani

Etiquetado análisis, causa, DrP, escala, Meta, plataforma, raíz