Integración de datos de Amazon Qpresentado en enero de 2024, le permite utilizar idioma natural para crear trabajos y operaciones de ascendencia, transformación y carga (ETL) en Pegamento AWS percepción de datos específicos Situación dinámico. Esta publicación presenta nuevas e interesantes capacidades para la integración de datos de Amazon Q que funcionan en conjunto para hacer que el ampliación de ETL sea más apto e intuitivo. Agregamos soporte para la gestación de código basado en DataFrame que funciona en cualquier entorno Spark. Incluso hemos introducido un ampliación rápido y consciente del contexto que aplica detalles de sus conversaciones, trabajando a la perfección con una nueva experiencia de ampliación iterativo. Esto significa que puede perfeccionar sus trabajos de ETL a través de preguntas de seguimiento naturales, comenzando con un canal de datos elemental y agregando progresivamente transformaciones, filtros y método de negocios a través de la conversación. Estas mejoras están disponibles a través del Amazonas Q experiencia de chat en el Consola de agencia de AWSy el Estudio unificado de Amazon SageMaker (horizonte previa) interfaces visuales ETL y portátiles.
La gestación de código DataFrame ahora se extiende más allá de AWS Glue DynamicFrame para albergar una viso más amplia de escenarios de procesamiento de datos. Ahora puede difundir trabajos de integración de datos para varios orígenes y destinos de datos, incluidos Servicio de almacenamiento simple de Amazon (Amazon S3) lagos de datos con formatos de archivo populares como CSV, JSON y Parquet, así como formatos de tablas modernos como apache hudi, Deltay Iceberg apache. Amazon Q puede difundir trabajos ETL para conectarse más de 20 fuentes de datos diferentesincluidas bases de datos relacionales como PostgreSQL, MySQL y Oracle; almacenes de datos como Desplazamiento al rojo del AmazonasCopo de cocaína y Google BigQuery; Bases de datos NoSQL como AmazonDynamoDBMongoDB y OpenSearch; tablas definidas en el Catálogo de datos de AWS Glue; y conectores JDBC y Spark personalizados proporcionados por el agraciado. Sus trabajos generados pueden utilizar una variedad de transformaciones de datos, incluidos filtros, proyecciones, uniones, uniones y agregaciones, lo que le brinda la flexibilidad para manejar requisitos complejos de procesamiento de datos.
En esta publicación, analizamos cómo la integración de datos de Amazon Q transforma el ampliación del flujo de trabajo ETL.
Capacidades mejoradas de integración de datos de Amazon Q
Anteriormente, la integración de datos de Amazon Q solo generaba código con títulos de plantilla que requerían que usted completara las configuraciones, como las propiedades de conexión para el origen y el receptor de datos, y las configuraciones para las transformaciones manualmente. Con un conocimiento rápido del contexto, ahora puede incluir esta información en su consulta en idioma natural, y la integración de datos de Amazon Q la extraerá e incorporará automáticamente al flujo de trabajo. Por otra parte, el ETL visual generativo en el editor visual SageMaker Unified Studio (horizonte previa) le permite reiterar y perfeccionar su flujo de trabajo ETL con nuevos requisitos, lo que permite un ampliación incremental.
Descripción caudillo de la alternativa
Esta publicación describe las experiencias de los usuarios de un extremo a otro para demostrar cómo la integración de datos de Amazon Q y SageMaker Unified Studio (horizonte previa) simplifican sus tareas de integración e ingeniería de datos con las nuevas mejoras, mediante la creación de un código bajo y sin código (LCNC). Flujo de trabajo ETL que permite la ingesta y transformación de datos sin problemas en múltiples fuentes de datos.
Demostramos cómo hacer lo ulterior:
- Conéctese a diversas fuentes de datos
- Realizar uniones de tablas
- Aplicar filtros personalizados
- Exportar datos procesados a Amazon S3
El ulterior diagrama ilustra la casa.
Uso de la integración de datos de Amazon Q con Amazon SageMaker Unified Studio (lectura preliminar)
En el primer ejemplo, utilizamos Amazon SageMaker Unified Studio (horizonte previa) para desarrollar un flujo de trabajo ETL visual de forma incremental. Esta canalización lee datos de diferentes tablas del catálogo de datos basadas en Amazon S3, realiza transformaciones en los datos y vuelve a escribir los datos transformados en Amazon S3. Usamos el allevents_pipe
y venue_pipe
archivos de la TICKET conjunto de datos para demostrar esta capacidad. El conjunto de datos TICKIT registra las actividades de ventas en el sitio web ficticio TICKIT, donde los usuarios pueden comprar y traicionar entradas en recta para diferentes tipos de eventos, como juegos deportivos, espectáculos y conciertos.
El proceso consiste en fusionar allevents_pipe
y venue_pipe
archivos del conjunto de datos TICKIT. A continuación, los datos combinados se filtran para incluir solo una región geográfica específica. Luego, los datos de salida transformados se guardan en Amazon S3 para su posterior procesamiento en el futuro.
Preparación de datos
Los dos conjuntos de datos están alojados como dos tablas del catálogo de datos, venue
y event
en un plan en Amazon SageMaker Unified Studio (horizonte previa), como se muestra en las siguientes capturas de pantalla.
Proceso de datos
Para procesar los datos, complete los siguientes pasos:
- En la consola de Amazon SageMaker Unified Studio, en el Construir menú, elija Flujo ETL visual.
Una ventana de chat de Amazon Q le ayudará a proporcionar una descripción del flujo ETL que se creará.
- Para esta publicación, ingrese el ulterior texto:
Create a Glue ETL flow connect to 2 Glue catalog tables venue and event in my database glue_db_4fthqih3vvk1if, join the results on the venue’s venueid and event’s e_venueid, and write output to a S3 location.
(El nombre de la cojín de datos se genera automáticamente con el ID del plan unido al nombre de la cojín de datos). - Designar Entregar.
Se generará un flujo de integración de datos auténtico como se muestra en la ulterior captura de pantalla para analizar las dos tablas del catálogo de datos, unir los resultados y escribir en Amazon S3. Podemos ver que las condiciones de unión se infieren correctamente a partir de nuestra solicitud en la configuración del nodo de unión que se muestra.
Agreguemos otra transformación de filtro basada en el estado del punto como DC.
- Elija el signo más y elija el ícono de Amazon Q para hacer una pregunta de seguimiento.
- Introduce las instrucciones
filter on venue state with condition as venuestate==‘DC’ after joining the results
para modificar el flujo de trabajo.
El flujo de trabajo se actualiza con una nueva transformación de filtro.
Al repasar el destino de datos de S3, podemos ver que la ruta de S3 ahora es un registrador de posición.
y el formato de salida es Parquet.
- Podemos hacer la ulterior pregunta en Amazon Q:
update the s3 sink node to write to s3://xxx-testing-in-356769412531/output/ in CSV format
de la misma modo para refrescar el destino de datos de Amazon S3. - Designar Mostrar sinopsis Para ver, el código generado está basado en DataFrame, con todo el contexto de toda nuestra conversación.
- Finalmente, podemos obtener una horizonte previa de los datos que se escribirán en la ruta S3 de destino. Tenga en cuenta que los datos son un resultado combinado que solo incluye el DC del estado del punto.
Con la integración de datos de Amazon Q con Amazon SageMaker Unified Studio (lectura preliminar), un agraciado de LCNC puede crear el flujo de trabajo ETL visual proporcionando indicaciones a Amazon Q y se conserva el contexto para las fuentes de datos y las transformaciones. Seguidamente, Amazon Q igualmente generó el código basado en DataFrame para que los ingenieros de datos o usuarios más experimentados utilizaran el código generado automáticamente por ETL con fines de secuencias de comandos.
Integración de datos de Amazon Q con el cuaderno Amazon SageMaker Unified Studio (lectura preliminar)
La integración de datos de Amazon Q igualmente está adecuado en la experiencia de notebook de Amazon SageMaker Unified Studio (lectura preliminar). Puede pegar una nueva celda e ingresar su comentario para describir lo que desea conquistar. A posteriori de presionar Pestaña y Ingresarse muestra el código recomendado.
Por ejemplo, proporcionamos la misma pregunta auténtico:
Create a Glue ETL flow to connect to 2 Glue catalog tables venue and event in my database glue_db_4fthqih3vvk1if, join the results on the venue’s venueid and event’s e_venueid, and write output to a S3 location.
De modo similar a la experiencia de chat de Amazon Q, se recomienda el código. Si presionas Pestañaluego se elige el código recomendado.
El ulterior vídeo proporciona una demostración completa de estas dos experiencias en Amazon SageMaker Unified Studio (horizonte previa).
Uso de la integración de datos de Amazon Q con AWS Glue Studio
En esta sección, explicamos los pasos para utilizar la integración de datos de Amazon Q con AWS Glue Studio.
Preparación de datos
Los dos conjuntos de datos están alojados en dos tablas del catálogo de datos basadas en Amazon S3, event
y venue
en la cojín de datos glue_db
que podemos consultar desde Atenea amazónica. La ulterior captura de pantalla muestra un ejemplo de la tabla de punto.
Proceso de datos
Para comenzar a utilizar la capacidad de gestación de código de AWS Glue, utilice el icono de Amazon Q en la consola de AWS Glue Studio. Puede comenzar a crear un nuevo trabajo y hacerle la pregunta a Amazon Q para crear el mismo flujo de trabajo:
Create a Glue ETL flow connect to 2 Glue catalog tables venue and event in my database glue_db, join the results on the venue’s venueid and event’s e_venueid, and then filter on venue state with condition as venuestate=='DC' and write to s3://
Puede ver que se genera el mismo código con todas las configuraciones implementadas. Con esta respuesta, podrá estudiar y comprender cómo crear código de AWS Glue según sus micción. Puede copiar y pegar el código generado en el editor de scripts. A posteriori de configurar un Trámite de camino e identidad de AWS (IAM) en el trabajo, guarde y ejecute el trabajo. Cuando se complete el trabajo, puede comenzar a consultar los datos exportados a Amazon S3.
Una vez completado el trabajo, puede repasar los datos unidos comprobando la ruta S3 especificada. Los datos se filtran por estado del punto como DC y ahora están listos para que los procesen las cargas de trabajo posteriores.
El ulterior vídeo proporciona una demostración completa de la experiencia con AWS Glue Studio.
Conclusión
En esta publicación, exploramos cómo la integración de datos de Amazon Q transforma el ampliación del flujo de trabajo ETL, haciéndolo más intuitivo y apto en el tiempo, con la última restablecimiento de gratitud de contexto instantáneo para difundir con precisión un flujo de integración de datos con alucinaciones reducidas y múltiples turnos. capacidades de chat para refrescar incrementalmente el flujo de integración de datos, pegar nuevas transformaciones y refrescar nodos DAG. Ya sea que esté trabajando con la consola u otros entornos Spark en SageMaker Unified Studio (lectura preliminar), estas nuevas capacidades pueden someter significativamente el tiempo y la complejidad del ampliación.
Para obtener más información, consulte Integración de datos de Amazon Q en AWS Glue.
Acerca de los autores
boli es ingeniero sénior de ampliación de software en el equipo de AWS Glue. Se dedica a diseñar y crear soluciones de extremo a extremo para chocar las micción de procesamiento y exploración de datos de los clientes con tecnologías de uso intensivo de datos basadas en la montón.
Stuti Deshpande es un arquitecto de soluciones experto en Big Data en AWS. Trabaja con clientes de todo el mundo, brindándoles orientación estratégica y arquitectónica sobre la implementación de soluciones de exploración mediante AWS. Tiene amplia experiencia en big data, ETL y exploración. En su tiempo soberano, a Stuti le gusta correr, estudiar nuevas formas de bailete y disfrutar de tiempo de calidad con familiares y amigos.
Kartik Panjabi es director de ampliación de software en el equipo de AWS Glue. Su equipo crea funciones de IA generativa para la integración de datos y un sistema distribuido para la integración de datos.
Shubham Mehta es director senior de productos en AWS Analytics. Dirige el ampliación de funciones de IA generativa en servicios como AWS Glue, Amazon EMR y Amazon MWAA, utilizando IA/ML para simplificar y mejorar la experiencia de los profesionales de datos que crean aplicaciones de datos en AWS.