Athrun Data Intelligence


Los ingenieros y analistas de datos a menudo necesitan automatizar sus flujos de trabajo y consultas de procesamiento de datos para nutrir las tuberías e informes de datos actualizados. Estudio unificado de Amazon Sagemaker es un entorno de expansión único y expansión de IA donde puede encontrar y obtener a todos los datos de su ordenamiento y hacer en consecuencia utilizando las mejores herramientas en cualquier caso de uso. Amazon Sagemaker Unified Studio proporciona herramientas potentes para los flujos y los libros de consultas de extracto, transformación y carga (ETL). Hasta hoy, la programación de estos flujos de trabajo ha requerido una configuración e infraestructura adicionales.

Hoy, estamos entusiasmados de presentar una nueva función de programación unificada que simplifica este proceso. Sagemaker Unified Studio le permite crear ETL fluye usando una interfaz visual y escribir Consultas de SQL Analytics utilizando libros de consultas. Esta nueva función de programación unificada le permite programar sus flujos de ETL visuales y consultar libros directamente de Sagemaker Unified Studio adentro de la misma interfaz, eliminando la requisito de revistar otras consolas o configuraciones complejas. Usando Amazon Eventbridge Scheduleresta característica proporciona una experiencia de programación perfecta y ligera de usar.

En esta publicación, pasamos por cómo programar sus flujos de ETL visuales y libros de consulta con solo unos pocos clics, explorar la cimentación subyacente y demostrar cómo esta característica puede optimizar la automatización de su flujo de trabajo de datos.

Descripción caudillo

Sagemaker Unified Studio Unified Scheduling se construye en la parte superior del planificador de eventbridge y Entrenamiento de Amazon Sagemaker. Cuando configura un nuevo horario de Sagemaker Unified Studio, un nuevo horario de eventbridge se crea automáticamente en su cuenta AWS. El calendario de eventbridge está configurado con la sagemaker creatingingjob API. El trabajo de capacitación de Sagemaker ejecuta flujos de ETL visuales o libros de consultas.

El próximo diagrama ilustra cómo funciona.

Requisitos previos

Para ejecutar la instrucción, debe tener los siguientes requisitos previos:

  • Un Cuenta de AWS
  • Un dominio de estudio unificado de Sagemaker
  • Un tesina de estudio unificado de Sagemaker con un Todas las capacidades perfil. Este perfil incluye Estampación BluePrint en el que la programación está habilitada de forma predeterminada. Si la programación está deshabilitada, es posible que necesite Actualice el perfil de su tesina.
  • Un rol de tesina de estudio unificado de Sagemaker sin límites de permiso o con un permiso expreso para GetScheduleGroup. Los nuevos proyectos tienen esta política por defecto. Si la programación está deshabilitada, es posible que necesite Desempolvar el rol de su tesina.
  • Un rol de tesina de estudio unificado de Sagemaker sin límites del tesina o con un permiso expreso para GetScheduleGroup.

Programe un flujo de ETL visual

Complete los siguientes pasos para configurar un cronograma en un flujo ETL visual:

  1. En la consola de estudio unificada de Sagemaker, en el menú superior, elija Construir.
  2. Bajo Observación e integración de datosnominar Flujos de ETL visual.
  3. Para Seleccione o cree un tesina para continuarseleccione su tesina y elija Continuar.
  4. Elija su flujo ETL visual. Si no tiene ningún flujo visual de ETL, consulte El autor Visual ETL fluye en Amazon Sagemaker Unified Studio Para crear un nuevo flujo de ETL visual.
  5. Elija el Cronograma icono.
  6. Para Nombre de programacióningrese un nombre único (por ejemplo, everyday).
  7. Para Tipo de horarioinclinarse Publicación.
  8. Para Valíaingresar 1.
  9. Para Pelotónnominar días.
  10. Para Zona horariaelige tu zona horaria.
  11. Designar Crear horario.

Has configurado con éxito el cronograma. Porque Vencimiento y hora de inicio no se da, el flujo de ETL visual se activa inmediatamente y luego se activa una vez al día posteriormente de eso.

Editar el horario

Puede ver los horarios configurados con los siguientes pasos:

  1. En la consola de estudio unificada de Sagemaker, navegue a Flujos de ETL visual para tu tesina.
  2. Elija el Horario pestaña.
  3. Designar Horario de estampación bajo Comportamiento.
  4. Editar con sus preferencias, luego elija Reservar.

Pausa o reanude el horario

Si desea detener el horario, complete los siguientes pasos:

  1. Designar Pausa cronograma bajo Comportamiento.

Al mismo tiempo Cronograma pestaña, Estado del horario se actualizará a Detenido.

  1. Para reanudar el horario, elija Activar el horario.

Eliminar el horario

Para eliminar el horario, complete los siguientes pasos:

  1. Designar Borrar cronograma bajo Comportamiento.
  2. Designar Eliminar el horario en el diálogo.

Al mismo tiempo Cronograma Tab, puede confirmar que el horario eliminado desaparezca.

Programe un flujo de libros de consulta

Complete los siguientes pasos para configurar un horario en un vademécum de consulta:

  1. En la consola de estudio unificada de Sagemaker, en el menú superior, elija Construir.
  2. Bajo Observación e integración de datosnominar Editor de consultas.
  3. En el explorador de datos, debajo Casa del albuferanominar AwsDataCatalog.
  4. Navegar a la mesa venue_event_agg. Esta tabla se crea en la sección susodicho.
  5. En el menú de opciones (tres puntos), elija Consulta con Athena.
  6. En el Comportamiento Menú, elija Acomodar para el tesina.
  7. Designar Acomodar cambios.
  8. En el Comportamiento Menú, elija Crear horario.
  9. Para Tipo de horarionominar Publicación.
  10. Para Valíaingrese 1.
  11. Para Pelotónnominar días.
  12. Para Zona horariaelige tu zona horaria.
  13. Designar Crear horario.

Has configurado con éxito el cronograma. Porque Vencimiento y hora de inicio no se estableció, el vademécum de consultas se activa inmediatamente y luego se activa una vez al día posteriormente de eso. Opcionalmente, puede configurar las horas de inicio y finalización si desea recortar su horario para ejecutarse en un rango de momento específico.

Para ver los horarios configurados, en el panel de navegación, elija Consultas programadas.

Puede ver la inventario de consultas programadas y editar, pausar, reanudar o eliminarlas, como se muestra en la sección susodicho.

Aniquilar

Para evitar incurrir en futuros cargos, limpie los medios que creó durante este tutorial:

  1. En el Cronograma pestaña Flujos de ETL visualseleccione el everyday programar y nominar Eliminar el horario bajo Comportamiento. El calendario relacionado de eventbridge asimismo se elimina automáticamente.
  2. En la consola AI Sagemaker, elija Trabajos de capacitación bajo Capacitacióny elimine todos los trabajos de capacitación de Sagemaker que comienzan con everyday-.
  3. (Opcional) para eliminar el flujo de ETL visual, en el Flujos pestaña Flujos de ETL visualseleccione su flujo ETL visual y elija Eliminar flujo bajo Comportamiento.

Conclusión

La nueva experiencia de programación unificada en Sagemaker Unified Studio simplifica la automatización del flujo de trabajo. Con la programación unificada, puede orquestar sin problemas sus flujos de ETL visuales y libros de consulta en una ubicación centralizada.

Ya sea que esté ejecutando transformaciones de datos diarias, consultas analíticas semanales o flujos de trabajo de informes mensuales, la experiencia de programación unificada proporciona una ruta directa con destino a la automatización. Esta capacidad permite a los equipos de datos centrarse más en obtener información de sus datos y menos en regir la infraestructura y la programación de configuraciones.

Le recomendamos que pruebe esta nueva experiencia y comparta sus comentarios con nosotros. Para obtener más información sobre Sagemaker Unified Studio y sus capacidades, visite nuestra documentación o explorar nuestras otras publicaciones de blog sobre Flujos de ETL visual y libros de consultas.


Sobre los autores

Noritaka sekiyama es un arquitecto principal de Big Data para los servicios de disección de AWS con un resistente enfoque en la ingeniería de datos. Es responsable de construir artefactos de software para ayudar a los clientes. En su tiempo vaco, le gusta frisar en biciclo en su biciclo de carretera.

Daniel Obi es ingeniero frontend en el equipo de estudio unificado de Amazon Sagemaker. Está dedicado a construir soluciones intuitivas y efectivas que mejoren la experiencia del afortunado y la funcionalidad técnica. Fuera de su trabajo profesional, le gusta ver y brincar baloncesto.

Vasudevan Venkataramanan es ingeniero de software senior en el equipo de estudio unificado de Amazon Sagemaker. Es responsable de la dirección técnica de programación y orquestación en Sagemaker Unified Studio. Fuera de su trabajo profesional, le gusta acaecer tiempo con su hijo y brincar pickleball y cricket.

Yuhang Huang es director de expansión de software en el equipo de estudio unificado de Amazon Sagemaker. Lleva al equipo de ingeniería a diseñar, construir y proceder capacidades de programación y orquestación en Sagemaker Unified Studio. En su tiempo vaco, le gusta brincar al tenis.

Gal HeyneGal Heyne es un director de productos técnicos senior de AWS Analytics Services con un resistente enfoque en IA/ML e ingeniería de datos. Le apasiona desarrollar una comprensión profunda de las deposición comerciales de los clientes y colaborar con los ingenieros para diseñar productos de datos fáciles de usar.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *