Cómo FINRA estableció la observabilidad operativa en tiempo verdadero para cargas de trabajo de big data de Amazon EMR en Amazon EC2 con Prometheus y Grafana

Esta es una publicación invitada de FINRA (Autoridad Reguladora de la Industria Financiera). FINRA se dedica a proteger a los inversores y preservar la integridad del mercado de una forma que facilite mercados de hacienda vibrantes.

FINRA realiza procesamiento de big data con grandes volúmenes de datos y cargas de trabajo con diferentes tamaños y tipos de instancias en EMR de Amazon. Amazon EMR es un entorno de big data basado en la montón diseñado para procesar grandes cantidades de datos utilizando herramientas de código amplio como Hadoop, Spark, HBase, Flink, Hudi y Presto.

Monitorear los clústeres de EMR es esencial para detectar problemas críticos con aplicaciones, infraestructura o datos en tiempo verdadero. Un sistema de monitoreo acertadamente justo ayuda a identificar rápidamente las causas fundamentales, automatizar la corrección de errores, minimizar las acciones manuales y aumentar la productividad. Encima, observar el rendimiento y el uso de los clústeres a lo derrochador del tiempo ayuda a los equipos de operaciones e ingeniería a encontrar posibles cuellos de botella en el rendimiento y oportunidades de optimización para progresar sus clústeres, reduciendo así las acciones manuales y mejorando el cumplimiento de los acuerdos de nivel de servicio.

En esta publicación, hablamos sobre nuestros desafíos y mostramos cómo creamos un ámbito de observabilidad para felicitar información sobre métricas operativas para cargas de trabajo de procesamiento de big data en Amazon EMR en Cúmulo informática elástica de Amazon (Amazon EC2) grupos.

Desafío

En el mundo flagrante impulsado por los datos, las organizaciones se esfuerzan por extraer información valiosa de grandes cantidades de datos. El desafío que enfrentamos fue encontrar una forma apto de monitorear y observar cargas de trabajo de big data en Amazon EMR correcto a su complejidad. El monitoreo y la observabilidad de las soluciones de Amazon EMR conllevan varios desafíos:

Complejidad y escalera – Los clústeres de EMR a menudo procesan volúmenes masivos de datos en numerosos nodos. Monitorear un sistema distribuido tan confuso requiere manejar un parada rendimiento de datos y obtener un impacto insignificante en el rendimiento. Gobernar e interpretar el gran cuerpo de datos de monitoreo generados por los clústeres de EMR puede resultar abrumador, lo que dificulta la identificación y alternativa de problemas de forma oportuna.
Entornos dinámicos – Los clústeres de EMR suelen ser efímeros, se crean y cierran en función de las demandas de la carga de trabajo. Este dinamismo dificulta el monitoreo, la sumario de métricas y el mantenimiento de la observabilidad a lo derrochador del tiempo.
Variedad de datos – Monitorear el estado del clúster y tener visibilidad de los clústeres para detectar cuellos de botella, comportamientos inesperados durante el procesamiento, datos sesgados, desempeño gremial, etc., son cruciales. Es muy importante comprender la observabilidad detallada de clústeres, nodos, tareas de larga ejecución, posibles distorsiones de datos, tareas estancadas, problemas de rendimiento y métricas a nivel de trabajo (como Spark y JVM). Alcanzar una observabilidad integral en estos variados tipos de datos fue difícil.
Utilización de posibles – Los clústeres de EMR constan de varios componentes y servicios que trabajan juntos, lo que dificulta el seguimiento eficaz de todos los aspectos del sistema. Monitorear la utilización de posibles (CPU, memoria, E/S de disco) en múltiples nodos para evitar cuellos de botella e ineficiencias es esencial pero confuso, especialmente en un entorno distribuido.
Métricas de latencia y rendimiento –Capturar y analizar la latencia y métricas integrales de rendimiento en tiempo verdadero para identificar y resolver problemas rápidamente es fundamental, pero es un desafío correcto a la naturaleza distribuida de Amazon EMR.
Paneles de observabilidad centralizados – Tener un panel único para todos los aspectos de las métricas del clúster EMR, incluido el estado del clúster, la utilización de posibles, la ejecución de trabajos, los registros y la seguridad, con el fin de proporcionar una imagen completa del rendimiento y el estado del sistema, fue un desafío.
Alertas y trámite de incidentes. – Establecer sistemas centralizados de alerta y notificación eficaces fue un desafío. La configuración de alertas para eventos críticos o umbrales de rendimiento requiere una consideración cuidadosa para evitar la ahogo de las alertas y, al mismo tiempo, avalar que los problemas importantes se aborden con prontitud. Reponer a incidentes por ralentizaciones o interrupciones del rendimiento requiere tiempo y esfuerzo para detectar y remediar los problemas si no existe un mecanismo de alerta adecuado.
Papeleo de costes – Por posterior, optimizar los costos manteniendo al mismo tiempo un seguimiento eficaz es un desafío constante. Equilibrar la obligación de un monitoreo integral con restricciones de costos requiere una planificación cuidadosa y estrategias de optimización para evitar gastos innecesarios y al mismo tiempo felicitar una cobertura de monitoreo adecuada.

La observabilidad efectiva de Amazon EMR requiere una combinación de herramientas, prácticas y estrategias adecuadas para encarar estos desafíos y proporcionar un procesamiento de big data confiable, apto y rentable.

El ganglios El sistema en Amazon EMR está diseñado para monitorear el clúster completo y el estado de todos los nodos, lo que muestra varias métricas como Hadoop, Spark y JVM. Cuando vemos la interfaz de agraciado web de Ganglia en un navegador, vemos una descripción militar del rendimiento del clúster EMR, que detalla la carga, el uso de la memoria, la utilización de la CPU y el tráfico de red del clúster a través de diferentes gráficos. Sin requisa, con la desaprobación de Ganglia anunciada por AWS para versiones superiores de Amazon EMRpara FINRA se volvió importante desarrollar esta alternativa.

Descripción militar de la alternativa

Información extraída de la publicación Supervise y optimice cargas de trabajo analíticas en Amazon EMR con Prometheus y Grafana inspiró nuestro enfoque. La publicación demostró cómo configurar un sistema de monitoreo usando Servicio administrado de Amazon para Prometheus y Grafana administrada por Amazon para monitorear de forma efectiva un clúster de EMR y usar paneles de Grafana para ver métricas para solucionar problemas y optimizar problemas de rendimiento.

Con cojín en estos conocimientos, completamos una prueba de concepto exitosa. A continuación, creamos nuestra alternativa de monitoreo central empresarial con Managed Prometheus y Managed Grafana para imitar métricas similares a Ganglia en FINRA. Prometheus administrado permite la sumario de datos de gran cuerpo en tiempo verdadero, lo que escalera la ingesta, el almacenamiento y la consulta de métricas operativas a medida que las cargas de trabajo aumentan o disminuyen. Estas métricas se envían al espacio de trabajo de Managed Grafana para visualizaciones.

Nuestra alternativa incluye una capa de ingesta de datos para cada clúster, con configuración para la sumario de métricas a través de un script personalizado almacenado en Servicio de almacenamiento simple de Amazon (Amazon S3). Incluso instalamos Managed Prometheus al inicio para instancias EC2 en Amazon EMR mediante un script de inicio. Encima, las etiquetas específicas de la aplicación se definen en el archivo de configuración para optimizar la inclusión y compendiar métricas específicas.

A posteriori de que Managed Prometheus (instalado en clústeres de EMR) recopila las métricas, se envían a un espacio de trabajo remoto de Managed Prometheus. Los espacios de trabajo de Managed Prometheus son entornos lógicos y aislados dedicados a servidores Managed Prometheus que gestionan métricas específicas. Incluso proporcionan control de camino para autorizar quién o qué envía y recibe métricas desde ese espacio de trabajo. Podrás crear un espacio de trabajo más por cuenta o aplicación según la obligación, lo que facilita una mejor trámite.

Una vez recopiladas las métricas, creamos un mecanismo para representarlas en paneles de Managed Grafana que luego se utilizan para el consumo a través de un punto final. Personalizamos los paneles para métricas a nivel de tarea, nivel de nodo y nivel de clúster para que puedan promoverse desde entornos inferiores a entornos superiores. Incluso creamos varios paneles de control con plantillas que muestran métricas a nivel de nodo, como métricas a nivel de sistema operante (CPU, memoria, red, E/S de disco), métricas HDFS, métricas YARN, métricas Spark y métricas a nivel de trabajo (Spark y JVM). maximizar el potencial de cada entorno a través de la agregación automatizada de métricas en cada cuenta.

Elegimos una opción de autenticación basada en SAML, que nos permitió integrarnos con grupos de Active Directory (AD) existentes, lo que ayudó a minimizar el trabajo necesario para ordenar el camino de los usuarios y otorgar camino al panel de Grafana basado en usuarios. Organizamos tres grupos principales (administradores, editores y espectadores) para la autenticación de usuarios de Grafana según los roles de los usuarios.

A través de una elaborada automatización de monitoreo, estas métricas deseadas se llevan a Amazon CloudWatch. Usamos CloudWatch para las alertas necesarias cuando se exceden los umbrales deseados para cada métrica.

El subsiguiente diagrama ilustra la bloque de la alternativa.

Paneles de muestra

Las siguientes capturas de pantalla muestran paneles de ejemplo.

Conclusión

En esta publicación, compartimos cómo FINRA mejoró la toma de decisiones basada en datos con una observabilidad integral de la carga de trabajo de EMR para optimizar el rendimiento, nutrir la confiabilidad y obtener información crítica sobre las operaciones de big data, lo que lleva a la excelencia operativa.

La alternativa de FINRA permitió a los equipos de operaciones e ingeniería utilizar un único panel para monitorear cargas de trabajo de big data y detectar rápidamente cualquier problema operante. La alternativa escalable redujo significativamente el tiempo de resolución y mejoró nuestra postura operativa militar. La alternativa brindó a los equipos de operaciones e ingeniería información integral sobre varias métricas de Amazon EMR, como niveles de sistema operante, Spark, JMX, HDFS y Yarn, todo consolidado en un solo circunstancia. Incluso ampliamos la alternativa para casos de uso como Servicio Amazon Elastic Kubernetes (Amazon EKS), incluido EMR en clústeres de EKS y otras aplicaciones, estableciéndolo como un sistema integral para monitorear métricas en toda nuestra infraestructura y aplicaciones.

Acerca de los autores

Sumalatha Bachu es Director Senior de Tecnología en FINRA. Gestiona operaciones de Big Data, que incluyen la trámite de datos a escalera de petabytes y el procesamiento de cargas de trabajo complejas en la montón. Encima, es experta en el exposición de soluciones de observabilidad y monitoreo de aplicaciones empresariales, exploración de datos operativos y flujos de trabajo de gobernanza de modelos de formación instintivo. Fuera del trabajo, le gusta hacer yoga, practicar canto y enseñar en su tiempo desocupado.

PremKiran Bejjam Es ingeniero asesor líder en FINRA y se especializa en el exposición de sistemas resilientes y escalables. Con un gran enfoque en el diseño de soluciones de monitoreo para mejorar la confiabilidad de la infraestructura, se dedica a optimizar el rendimiento del sistema. Más allá del trabajo, disfruta del tiempo de calidad en clan y examen continuamente nuevas oportunidades de formación.

Akhil Chalamalasetty es Director de Tecnología de Regulación de Mercado en FINRA. Es un experimentado en la materia de Big Data y se especializa en crear soluciones de vanguardia a escalera yuxtapuesto con la optimización de cargas de trabajo, datos y sus capacidades de procesamiento. Akhil disfruta de las carreras de simulación y de la Fórmula 1 en su tiempo desocupado.

Etiquetado Amazon, Big, cargas, Cómo, con, Data, EC2, EMR, estableció, FINRA, Grafana, observabilidad, operativa, para, Prometheus, real, tiempo, trabajo

Cómo FINRA estableció la observabilidad operativa en tiempo verdadero para cargas de trabajo de big data de Amazon EMR en Amazon EC2 con Prometheus y Grafana

Desafío

Descripción militar de la alternativa

Paneles de muestra

Conclusión

Acerca de los autores

Deja una respuesta Cancelar la respuesta

COLOMBIA

ENLACES DE INTERÉS