Athrun Data Intelligence


Esta publicación está cubierta con Sean Zou, Terry Quan y Audrey Yuan de Mulesoft.

En nuestra publicación de blog de liderazgo de pensamiento inicial Por qué un maniquí activo en la cúmulo Definimos un entorno de COE y mostramos por qué Mulesoft lo implementó y los beneficios que recibieron de él. En esta publicación, nos sumergiremos en la implementación técnica que describe cómo usó Mulesoft Amazon Eventbridge, Amazon Redshift, Amazon Redshift Spectrum, Amazon S3Y AWS Glue para implementarlo.

Descripción genérico de la alternativa

La alternativa de Mulesoft fue construir una casa de estero construida sobre los servicios de AWS, ilustrado en el venidero diagrama, que respalda un portal. Para proporcionar disección casi en tiempo verdadero, utilizamos una táctica basada en eventos que desencadenaría a los trabajos de pegamento AWS una aggiornamento de vistas materializadas. Asimismo implementamos un enfoque en capas que incluía sumario, preparación y beneficio, lo que hace que sea sencillo identificar áreas que afectan la precisión de los datos.

Para la alternativa de extremo a extremo de MuleLeoft’s Lakehouse, las siguientes fases son secreto:

  • Grado de preparación
  • Grado de beneficio
  • Grado de influencia

En las siguientes secciones, discutimos estas fases con más detalle.

Grado de preparación

Usando el entorno de COE, nos comprometimos con las partes interesadas en la período de preparación para determinar los objetivos comerciales e identificar las fuentes de datos para ingerir. Ejemplos de fuentes de datos fueron el inventario de activos en la cúmulo, Informes de costo y uso de AWSy Datos de asesores de confianza de AWS. Los datos ingeridos se procesan en Lakehouse para implementar los pilares, la utilización, la seguridad y las medidas de estado de cumplimiento admisiblemente arquitectados.

¿Cómo configura los datos CUR y los datos de asesor de confianza para aterrizar en S3?

El proceso de configuración implica múltiples componentes para el almacenamiento de datos de asesores CUR y de confianza. Para la configuración de CUR, los clientes deben configurar un cubo S3 donde se entregará el referencia CUR, ya sea seleccionando un cubo existente o creando uno nuevo. El cubo S3 requiere que se aplique una política y los clientes deben especificar un prefijo de ruta S3 que crea una subcarpeta para la entrega de archivos CUR.

Los datos de Confied Advisor están configurados para usar Kinesis Firehose para entregar datos de sumario del cliente al cubo de Datos de soporte del estero S3. El proceso de ingestión de datos utiliza parámetros de búfer de manga de fuego (tamaño de búfer de 1 MB y tiempo de búfer de 60 segundos) para regir el flujo de datos al cubo S3.

Los datos del asesor de confianza se almacenan en formato JSON y GZIP, siguiendo una estructura de carpeta específica con particiones por hora utilizando el formato «A yyyy-MM-DD-HH».

La estructura de partición S3 para los datos de sumario del cliente de Asesor Trusted incluye rutas separadas para datos de éxito y error, y los datos se cifran utilizando una secreto KMS específica para los datos de asesor de confianza.

Mulesoft utilizó servicios de ingestión de datos y servicios administrados de AWS para extraer de múltiples fuentes de datos y eso puede confesar personalizaciones. CloudQuery Se utiliza la utensilio para compilar información de infraestructura en la cúmulo, que puede conectar muchas fuentes de datos de infraestructura fuera de la caja y aterrizarla en un cubo de Amazon S3. El Plataforma MuleSoft Anypoint Proporciona una capa de integración para integrar herramientas de infraestructura, acomodando muchas fuentes de datos como el software tópico, SaaS y comercial comercial (COTS). Custodio de la cúmulo se utilizó para su capacidad de regir los bienes en la cúmulo y la remediación cibernética con personalizaciones.

Grado de beneficio

La período de beneficio incluye la ingestión de datos sin procesar con nuestros objetivos comerciales en el Lakehouse a través de nuestras tuberías y consolidar los datos para crear un solo panel de vidrio.

Las tuberías adoptan la construcción basada en eventos que consiste en eventbridge, Amazon Simple Queue Service (Amazon SQS)y Notificaciones de eventos de Amazon S3 Proporcionar datos casi en tiempo verdadero para el disección. Cuando llegan los nuevos datos en el cubo de origen, la regla de eventbridge captura la nueva creación de objetos, que invoca el flujo de trabajo de pegamento AWS, que consiste en un extracto de pegamento AWS y trabajos de extracto de pegamento AWS, transformación y carga (ETL). Asimismo configuramos Notificaciones de eventos S3 Para destinar mensajes a la trasero SQS para comprobar de que la tubería solo procese los nuevos datos.

El trabajo de AWS Glue ETL limpia y estandariza los datos, de modo que esté dinámico para analizarse utilizando Amazon Redshift. Para invadir los datos con estructuras complejas, se realiza un procesamiento adicional para aplanar los formatos de datos anidados en un maniquí relacional. El paso de aplanamiento asimismo extrae las etiquetas de los activos de AWS de los objetos JSON anidados y los excursión en columnas individuales, lo que permite etiquetar controles de aplicación y atribución de propiedad. La atribución de propiedad de los datos de infraestructura proporciona responsabilidad y responsabiliza a los equipos de los costos, la utilización, la seguridad, el cumplimiento y la remediación de sus activos en la cúmulo. Una epíteto importante es la propiedad de activos que proviene de las etiquetas extraídas del paso de aplanamiento, estos datos pueden atribuirse a los propietarios correspondientes mediante scripts SQL.

Cuando se completa el flujo de trabajo, los datos sin procesar de diferentes fuentes y con varias estructuras ahora se centralizan en el almacén de datos. A partir de ahí, los datos desarticulados con diferentes propósitos están listos para ser consolidados y traducidos en inteligencia procesable en los pilares admisiblemente arquitectados codificando la dialéctica comercial.

Soluciones para la período de beneficio

En la período de beneficio, enfrentamos una serie de desafíos de almacenamiento, eficiencia y escalabilidad dada el gran cuerpo de datos. Utilizamos tres técnicas (partición de archivos, espectro de desplazamiento rojo y vistas materializadas) para invadir estos problemas y escalera sin comprometer el rendimiento.

División de archivos

Los datos de infraestructura de Mulesoft se almacenan en la estructura de la carpeta: año, mes, día, hora, cuenta y región en un cubo S3, por lo que los rastreadores de pegamento AWS pueden identificar automáticamente y anexar particiones a las tablas en el catálogo de datos de pegamento AWS. La partición ayuda a mejorar significativamente el rendimiento de la consulta porque optimiza el procesamiento paralelo para consultas. La cantidad de datos escaneados por cada consulta está restringida en función de las claves de partición, ayudando a resumir las transferencias generales de datos, el tiempo de procesamiento y los costos de cálculo. Aunque la partición es una técnica de optimización que ayuda a mejorar la eficiencia de la consulta, es importante tener en cuenta dos puntos secreto al usar esta técnica:

  • El catálogo de datos tiene un orilla mayor de 10 millones de particiones por tabla
  • El rendimiento de la consulta se compromete a medida que las particiones crecen rápidamente

Por lo tanto, es esencial equilibrar el número de particiones en las tablas de catálogo de datos y la eficiencia de la consulta. Decidimos una política de retención de datos de 3 meses y configuramos una regla de ciclo de vida para expirar cualquier datos más antiguos que eso.

Nuestro evento de EventBentbridge de construcción de Event, AWS se invoca cuando los objetos se colocan o se eliminan de un cubo S3, los mensajes de eventos se publican a la trasero SQS utilizando notificaciones de eventos S3, que invoca un rastreador de pegamento AWS para anexar nuevas particiones o eliminar las viejas particiones o eliminar Particiones del catálogo de datos basados ​​en los mensajes que manejan la exactitud de la partición.

Amazon Redshift y escalado de concurrencia

MuleSoft utiliza Amazon RedShift para consultar los datos en S3 porque proporciona cuenta a gran escalera y superfluidad de datos minimizado. MuleSoft asimismo utilizó la escalera de concurrencia de desplazamiento rojo de Amazon para ejecutar consultas concurrentes con un rendimiento de consulta consistentemente rápido. Amazon RedShift agregó automáticamente la potencia de procesamiento de consultas en segundos para procesar una gran cantidad de consultas concurrentes sin demoras.

Vistas materializadas

Otra técnica que utilizamos son las vistas materializadas de Amazon RedShift. Las vistas materializadas almacenan resultados de consultas preestablecidas que pueden usar futuras consultas similares, por lo que se pueden callar muchos pasos de cálculo. Por lo tanto, se puede ceder a datos relevantes de forma valioso, lo que conduce a la optimización de consultas. Por otra parte, las vistas materializadas se pueden modernizar automáticamente e incrementalmente. Por lo tanto, podemos alcanzar un solo panel de vidrio en nuestra infraestructura en la cúmulo con las proyecciones, tendencias e ideas procesables más actualizadas para nuestra ordenamiento con un mejor rendimiento de consultas.

Las vistas materializadas (MV) de Amazon Redshift se usan ampliamente para informar en el portal central de MuleLaft, pero si los usuarios necesitaban profundizar en una traza granular, podrían hacer relato a tablas externas.

Actualmente, MuleSoft está actualizando manualmente las vistas materializadas a través de la construcción basada en eventos, pero está evaluando un interruptor a la aggiornamento cibernética.

Grado de influencia

Utilizando vistas materializadas en Amazon Redshift, desarrollamos un portal central de la cúmulo de hipermercado en Tableau para proporcionar un portal de visualización para cada equipo, ingeniero y regente que ofrece orientación y recomendaciones para ayudarlos a proceder de una forma que se alinee con los requisitos, estándares de la ordenamiento, estándares de la ordenamiento y presupuesto. Los gerentes están facultados con información de monitoreo y toma de decisiones para sus equipos. Los ingenieros pueden identificar y etiquetar activos con información de etiquetado obligatoria faltante, así como bienes no conformes. Una característica secreto del portal es la personalización, lo que significa que el portal está recaudador para poblar visualizaciones y disección basados ​​en los datos relevantes asociados con la información de inicio de sesión de un regente o ingeniero.

Cloud Central asimismo ayuda a los equipos de ingeniería a mejorar su envero en la cúmulo en los seis pilares de la construcción: excelencia operativa, seguridad, confiabilidad, eficiencia del rendimiento, optimización de costos y sostenibilidad. El equipo demostró el «arte de posibles» al Poc’ing Amazon Q para ayudar con 100 y 200 consultas de pilares admisiblemente arquitectadas y cómo TO. La venidero captura de pantalla ilustra la implementación de Mulesoft del Portal, Cloud Central. Otras compañías diseñarán portales que estén más a medida en sus propios casos y requisitos de uso.

Conclusión

El impacto técnico y comercial del entorno COE de Muleoft permite una optimización táctica y un uso de nubes Mostrar el enfoque que ayuda a Mulesoft a continuar creciendo con una infraestructura en la cúmulo escalable y sostenible. El entorno asimismo impulsa la envero y los beneficios continuos en la infraestructura de la cúmulo centrada en los seis pilares de la construcción que se muestran en la venidero figura.

El entorno ayuda a las organizaciones con una infraestructura pública ampliada en la cúmulo a alcanzar sus objetivos comerciales guiados por los beneficios admisiblemente arquitectados impulsados ​​por una construcción basada en eventos.

La alternativa de construcción Amazon RedShift de Amazon Redhouse, basada en eventos, ofrece información casi en tiempo verdadero procesable sobre la toma de decisiones, el control y la responsabilidad. El Architecutre, basado en eventos, se puede destilarse en módulos que se pueden anexar o eliminar según sus objetivos técnicos/comerciales.

El equipo está explorando nuevas formas de resumir el costo total de propiedad. Están evaluando Amazon RedShift sin servidor para cargas de trabajo de bases de datos transitorias, así como explorando Amazon Datazone para anexar y correlacionar fuentes de datos en un catálogo de datos para compartir entre equipos, aplicaciones y líneas de negocios de forma democratizada. Podemos aumentar la visibilidad, la productividad y la escalabilidad con una alternativa de Lakehouse admisiblemente pensada.

Invitamos a las organizaciones y empresas a adoptar un enfoque holístico para comprender sus bienes en la cúmulo, infraestructura y aplicaciones. Puede habilitar y educar a sus equipos a través de un solo panel de vidrio, mientras se ejecuta en una modernización de datos Lakehouse que aplica conceptos admisiblemente arquitigados, mejores prácticas y principios centrados en la cúmulo. Esta alternativa puede permitir en última instancia una transmisión casi en tiempo verdadero, nivelando un entorno de COE hasta el futuro.


Sobre los autores

Sean Zou es un líder de operaciones en la cúmulo con MuleSoft en Salesforce. Sean ha estado involucrado en muchos aspectos de las operaciones en la cúmulo de Mulesoft, y ayudó a impulsar la infraestructura en la cúmulo de Mulesoft a esquilar más de diez veces en 7 primaveras. Construyó la función de ingeniería de supervisión en MuleSoft desde cero.

Terry Quan Se centra en los problemas de Finops. Trabaja en la ingeniería de MuleSoft en presupuestos de computación en la cúmulo y pronósticos, esfuerzos de reducción de costos, costos de servicio y coordina con Salesforce Finance. Terry es un practicante de Finops y certificado profesional.

Audrey Yuan es ingeniero de software de MuleSoft en Salesforce. Audrey trabaja en Solutions de Data Lakehouse para ayudar a impulsar la envero de la cúmulo a través de los seis pilares del entorno admisiblemente arquitectado.

Rueben Jiménez es un arquitecto de soluciones senior en AWS, diseñando e implementando soluciones complejas de disección de datos, IA/ML y infraestructura en la cúmulo.

Avijit goswami es un arquitecto principal de soluciones en AWS especializado en datos y disección. Apoya a los clientes estratégicos de AWS en la creación de soluciones de Data Lake de detención rendimiento, seguras y escalables en AWS utilizando servicios administrados de AWS y soluciones de código campechano. Fuera de su trabajo, Avijit le gusta delirar, caminar, ver deportes y escuchar música.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *