Athrun Data Intelligence

Optimizar el tiempo de ejecución de Amazon EMR para Apache Spark con EMR S3A

Con el tiempo de ejecución de Amazon EMR 7.10, Amazon EMR ha introducido EMR S3A, una implementación mejorada del conector del sistema de archivos S3A de código rajado. Este conector mejorado ahora se establece automáticamente como el conector del sistema de archivos S3 predeterminado para las opciones de implementación de Amazon EMR, incluidas Amazon EMR […]

Use los flujos de trabajo de flujo de atmósfera Apache para orquestar el procesamiento de datos en Amazon Sagemaker Unified Studio

La orquestación de tuberías de formación mecánico es confuso, especialmente cuando el procesamiento de datos, la capacitación y la implementación abarcan múltiples servicios y herramientas. En esta publicación, caminamos a través de un ejemplo práctico y de extremo a extremo de desarrollar, probar y ejecutar una tubería de formación mecánico (ML) utilizando capacidades de flujo […]

Snowpark Connect para Apache Spark ™ en paisaje previa pública

En la traducción 3.4, la comunidad Apache Spark ™ introdujo Spark Connect. Su edificación de servidor cliente desacoplada separa el código del adjudicatario del clúster Spark donde se realiza el trabajo. Esta nueva edificación ahora permite ejecutar su código de chispa en un almacén de copos de cocaína que elimina la aprieto de aprovisionar y […]

Cómo Apache Iceberg está cambiando la cara de los lagos de datos

En pocas palabras: Iceberg es metadatos. Los archivos de datos se rastrean individualmente, en puesto de a nivel de directorio, mediante archivos manifiestos, listas manifiestas y archivos de metadatos. Esta capa de metadatos perfectamente coordinada significa que el iceberg no es víctima de algunos de los problemas más perniciosos que otros formatos de mesa comunes […]

Implementar examen en tiempo verdadero con Startree para Apache Pinot administrado en AWS

Esta publicación está cubierta con Mayank Shrivastava y Barkha Herman de Startree. Construir una devaluación latencia, entrada concurrencia y tiempo verdadero Procesamiento analítico en cadeneta (OLAP) La decisión se ha explorado previamente en el blog de AWS Big Data, donde caminamos a través de cómo Cree una decisión de examen en tiempo verdadero con Apache […]