Athrun Data Intelligence


Estamos emocionados de anunciar Catálogo de datos de pegamento AWS Métricas de uso. El uso de las métricas es una nueva característica que proporciona integración nativa con Amazon CloudWatch. Esta característica le proporciona una visibilidad inmediata sobre sus patrones y tendencias de uso de la API de catálogo de datos de pegamento AWS.

El catálogo de datos de Glue de AWS es un repositorio centralizado que almacena metadatos sobre los conjuntos de datos de su estructura. Con su interfaz unificada que actúa como un índice, puede juntar y consultar información sobre sus fuentes de datos, incluida su ubicación, formatos, esquemas y métricas de tiempo de ejecución.

A medida que escalera tu obra del charcal en Servicios web de Amazon (AWS) y perseverar operaciones de datos confiables, la observabilidad y el monitoreo se vuelven críticos para comprender y optimizar los usos de la API del catálogo de datos.

Con las métricas de uso del catálogo de datos en CloudWatch, puede obtener lo futuro:

  • Monitorear los patrones de llamadas API a intervalos de 1 minuto
  • Solicitar de forma proactiva el aumento de la cuota del servicio para los límites de tasa de API
  • Habilitar el Función de detección de anomalías preconstruidas de CloudWatch para identificar anormalidades en su uso de API
  • Comprender el uso de Lakehouse en más de 50 API

En esta publicación, demostramos cómo ceder a estas métricas, proporcionar un tutorial paso a paso y establecer alarmas significativas.

Acceda a las métricas de uso del catálogo de datos en la consola de Amazon CloudWatch

Para ceder a las métricas de uso del catálogo de datos, complete los siguientes pasos:

  1. Descubierto Amazon CloudWatch consola
  2. Bajo Métricanominar Todas las métricas
  3. En la mostrador de búsqueda, ingrese Glue y nominar Ingresar
  4. Nominar Uso> por el arbitrio de AWScomo se muestra en la futuro captura de pantalla

  1. El Métrica La sección abre y muestra diferentes métricas de uso del catálogo que puede preferir para crear paneles y alarmas, como se muestra en la futuro captura de pantalla

Monitorear las métricas de callcount

Cada métrica de Amazon CloudWatch para el catálogo de datos es de una API de tipo y establecido como CallCount. Esto significa que para cada API claridad a ese arbitrio específico (por ejemplo, GetConnection API) se registrará como un recuento. Estas métricas pueden integrarse perfectamente en sus paneles CloudWatch existentes, o puede usarlas para crear otras nuevas. Para el monitoreo proactivo, puede configurar alarmas personalizadas que se activen automáticamente cuando este uso de API excede sus umbrales definidos, lo que le ayuda a cumplir con los límites de servicio.

Bajo el Métricas gráficas Pestaña, puede proporcionar personalizaciones adicionales para que coincida con sus evacuación de monitoreo. En el Detalles Columna, puede crear alarmas y habilitar la detección de anomalías para identificar patrones inusuales.

Para ayudar con un monitoreo de API efectivo, CallCount Las métricas se centran específicamente en llamadas de API exitosas. De esta forma, tiene un monitoreo más preciso y puede solucionar problemas de diferentes tipos de comportamientos de API. La futuro captura de pantalla muestra la panorama de métricas de uso de pegamento AWS para GetTables API.

En el Estadística columna, puede ver su uso de API más allá del valencia predeterminado Suma, Intrascendentey Mayor métrica. Ahora puede preferir una amplia variedad de métodos estadísticos para analizar sus patrones de uso, como se muestra en la futuro captura de pantalla.

Métricas y dimensiones para métricas de uso del catálogo de datos

Métricas de uso del catálogo de datos Use el AWS/Usage espacio de nombres y proporcionar CallCount métrica. Estas métricas se publican con las dimensiones Service, Resource, Type y Class.

El CallCount La métrica no tiene una mecanismo especificada. La estadística más útil para la métrica es SUMque representa el recuento de operaciones totales para el período de 1 minuto. Una nota importante es que el valencia métrico se emite a intervalos de 1 minuto. Estrechar aún más el período (por ejemplo, a 1 segundo) no cambiará el intervalo de radiodifusión.

Métrica

Métrico Descripción
CallCount El número de operaciones especificadas realizadas en su cuenta.

Dimensiones

Interruptor de dimensión Valencia de dimensión Descripción
Servicio AWS Glue El nombre del servicio AWS que contiene el arbitrio. Para las métricas de uso del catálogo de datos, el valencia para esta dimensión es AWS Glue.
Tipo API El tipo de arbitrio que se está rastreando. Actualmente, cuando el Servicio la dimensión es AWS Glueel único valencia válido para Tipo es API.
Medio

El nombre de la operación API. Los títulos válidos incluyen lo futuro:

GetCatalogs, getCatalog, getDatabases, getDatabase, getTable, getTable, getTableVersion, getTableSversions, SearchTable, getPartitionIndexes, getColumnstatisticsTide, getPartition, getPartitions, batchgetPartition, getColumnstatistics forParTition, getConnection, getConnections, getEdEdEdEdEdEdFeDeS GetUserDefinedFunctions, getCatalogimportStatus, getTableOptimizer, batchGetTablePtimizer, listTableePtimizerRuns, createCatalog, creatAbase, createTable, createeParTitionIndex, CreatePartition, BatchCreatePartition, CreateConnection, CreateUserDefinedFuncion, CreateTableBaToPalizer, UpteTateTeCateG, UpteTateTaTaLog, UpteTeTaTaTaTaLog, UpteTeTATETATATATATATATATELOG, UPTATETATATATETATATELOG, UPTINETATATETATATELOG, UPTATETATATATETATATELOG, UPTINETATATETATATELOG. UpdateTable, UpdateColumnstatisticsFortable, UpdatePartition, BatchUpdatePartition, UpdateColumnStatisticsForPartition, UpdateConnection, UpdateUserDefinedFunction, UpdateTablePtimizer, DeleteCatalog, DeLetAdAtabase, DeletTetable, BatchDeletable, DeletetEverSion, DelEtePartition, DeletAdEx. DeleteColumnstatisticistsFortable, DeletePartition, BatchDeletEtePartition, DeleteColumnstatisticsForPartition, DeleteConnection, BatchDeleteconnection, DeleteUserDefinedFunction, DeletTablePtimizer, TestConnection, ImportalogToGLue

Clase Nadie La clase de capital que se rastrean. Las métricas de uso del catálogo de datos usan esta dimensión con un valencia de None.

Configure las alarmas de CloudWatch para métricas de uso del catálogo de datos

El catálogo de datos ha definido reglas para gobernar patrones de uso atípicos que limitan la tasa de llamadas del cliente a la granularidad de las solicitudes por segundo. Puede difundir alarmas de CloudWatch utilizando el CallCount métrica para que los aumentos de meta se puedan hacer de forma proactiva. Para configurar una sobresalto de CloudWatch con este filo, complete los siguientes pasos:

  1. En la consola de métricas de CloudWatch, seleccione una de las métricas disponibles, como se muestra en la futuro captura de pantalla. En este ejemplo, seleccionamos el arbitrio GetTables. Puede preferir varias métricas para adaptarse a su caso de uso.

  1. Nominar Métricas gráficas.
  2. Nominar Suma como la estadística principal.
  3. Establecer el período a 1 minuto.

  1. Nominar Detalles y Crear sobresalto.

  1. Para Tipo de filonominar Detección de anomalías. Asimismo puedes preferir Parado Según sus requisitos y a posteriori de favor determinado un valencia filo específico.
  2. Establecer el Borde de detección de anomalías a 2 (por defecto). El valencia filo se usa para determinar el rango corriente de títulos para la métrica. Un valencia más parada produce una partida más gruesa de títulos normales. Para obtener más información sobre cómo funciona la detección de anomalías de CloudWatch, consulte Cómo funciona la detección de anomalías de CloudWatch.
  3. Nominar Próximo.
  4. Para Envíe una notificación al futuro tema SNSnominar Crear un nuevo tema.
  5. Para Crear un nuevo temaingresa a tu Servicio de notificación simple de Amazon (Amazon SNS) Nombre del tema.
  6. Para Puntos finales de correo electrónico que recibirán la notificacióningrese su dirección de correo electrónico. En este ejemplo, vamos a crear un nuevo tema de SNS. Sin confiscación, puede usar sus temas de SNS existentes o usar otras opciones como AWS Lambda o actividad de escalera cibernética.
  7. Nominar Crear tema.

  1. Desplácese cerca de debajo y elija Próximo.
  2. Ingrese un nombre de sobresalto y una descripción y elija Próximo.
  3. Revise todos los detalles que ha ingresado y elija Crear sobresaltocomo se muestra en la futuro captura de pantalla.

Siguiendo estos pasos, ha configurado con éxito una sobresalto de CloudWatch utilizando la detección de anomalías que monitorea el uso de su catálogo de datos con el filo que establece. La sobresalto se activará cuando el CallCount Metric excede el filo calculado, enviando notificaciones a su tema SNS especificado y puntos finales de correo electrónico.

Este enfoque de monitoreo proactivo previene los problemas del meta de la velocidad de la API y proporciona un funcionamiento sin problemas del uso de su catálogo de datos. Para obtener más información sobre el uso de las alarmas de CloudWatch, consulte Usando las alarmas de Amazon CloudWatch.

Conclusión

Las métricas de uso del catálogo de datos de AWS Glue son una alivio efectiva para sus capacidades de monitoreo de infraestructura de datos. Aborda la creciente falta de una observabilidad detallada a través de Amazon CloudWatch en las arquitecturas de datos modernas construidas sobre el catálogo de datos. Ahora tiene entrada a estadísticas más granulares, que va más allá de las métricas de solicitud máximas y promedio simples a los indicadores de rendimiento integrales, incluidos los percentiles P99. Estas métricas se emiten en intervalos de 1 minuto, proporcionando visibilidad en las operaciones de sus catálogo de datos. Las organizaciones ahora pueden identificar de forma proactiva los cuellos de botella ayer de afectar las operaciones y realizar eficientemente la planificación de la capacidad a través de patrones de uso detallados.

Desde la construcción de paneles de monitoreo hasta configurar alertas, el soporte nativo con la detección de anomalías de CloudWatch y las configuraciones de sobresalto flexibles hacen que sea sencillo monitorear de forma proactiva su despliegue de Lakehouse y evitar anormalidades en su uso de lakehouse. Para obtener más información, consulte Monitoreo de métricas de uso del catálogo de datos en Amazon CloudWatch En la documentación de pegamento de AWS. Recomendamos probar y usar estas métricas como parte de su táctica moderna de monitoreo y observabilidad. Le recomendamos que comparta sus comentarios con nosotros.

Un agradecimiento peculiar a todos los que contribuyeron a este impulso: Vineet Sunkavalli, Shubham Bansal, Mike Kloss, Zarius Dubash.


Sobre los autores

David Zhang es un arquitecto de soluciones de disección especializado en el diseño e implementación de infraestructura de datos a gran escalera, procesos ETL y extensos sistemas de administración de datos. Ayuda a los clientes a modernizar las plataformas de datos en Amazon Web Services (AWS). David igualmente es un orador activo en eventos de AWS y contribuyente a contenido técnico e iniciativas de código libre. Le gusta competir balonvolea, tenis y baloncesto durante su tiempo atrevido.

Noritaka sekiyama es un arquitecto principal de Big Data con Amazon Web Services (AWS) Analytics Services. Es responsable de construir artefactos de software para ayudar a los clientes. En su tiempo atrevido, le gusta deambular en biciclo en su biciclo de carretera.

Sandeep Adwankar es un regente de producto senior en AWS. Con sede en el Radio de la Bahía de California, trabaja con clientes de todo el mundo para traducir los requisitos comerciales y técnicos en productos que permitan a los clientes mejorar la forma en que administran, aseguran y acceden a los datos.

Abhay joshi es ingeniero de progreso de software en la formación de AWS Glue y AWS Lake. Le apasiona construir sistemas distribuidos tolerantes y confiables tolerantes y confiables a escalera.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *