Athrun Data Intelligence

Una implementación de codificación para crear una canalización unificada de Apache Beam que demuestra el procesamiento por lotes y transmisiones con ventanas de tiempo de eventos mediante DirectRunner

En este tutorial, demostramos cómo construir un unificado Haz Apache canalización que funciona a la perfección tanto en modo por lotes como en modo secuencial utilizando DirectRunner. Generamos datos sintéticos que tienen en cuenta la hora del evento y aplicamos ventanas fijas con activadores y retrasos permitidos para demostrar cómo Apache Beam maneja consistentemente eventos […]

Presentamos AWS Glue 5.1 para Apache Spark

Pegamento AWS es un servicio de integración de datos escalable y sin servidor que simplifica el descubrimiento, la preparación, el movimiento y la integración de datos de múltiples fuentes. AWS anunció recientemente Glue 5.1, una nueva traducción de AWS Glue que acelera las cargas de trabajo de integración de datos en AWS. AWS Glue 5.1 […]

Optimizar el tiempo de ejecución de Amazon EMR para Apache Spark con EMR S3A

Con el tiempo de ejecución de Amazon EMR 7.10, Amazon EMR ha introducido EMR S3A, una implementación mejorada del conector del sistema de archivos S3A de código rajado. Este conector mejorado ahora se establece automáticamente como el conector del sistema de archivos S3 predeterminado para las opciones de implementación de Amazon EMR, incluidas Amazon EMR […]

Use los flujos de trabajo de flujo de atmósfera Apache para orquestar el procesamiento de datos en Amazon Sagemaker Unified Studio

La orquestación de tuberías de formación mecánico es confuso, especialmente cuando el procesamiento de datos, la capacitación y la implementación abarcan múltiples servicios y herramientas. En esta publicación, caminamos a través de un ejemplo práctico y de extremo a extremo de desarrollar, probar y ejecutar una tubería de formación mecánico (ML) utilizando capacidades de flujo […]