Ejecute Apache Spark e Iceberg 4,5 veces más rápido que Spark de código descubierto con Amazon EMR

Esta publicación muestra cómo Amazon EMR 7.12 puede hacer que sus cargas de trabajo de Apache Spark e Iceberg tengan un rendimiento hasta 4,5 veces más rápido. El Tiempo de ejecución de Amazon EMR para Apache Spark proporciona un entorno de ejecución de detención rendimiento con compatibilidad API total con código descubierto chispa apache y […]
Optimizar el tiempo de ejecución de Amazon EMR para Apache Spark con EMR S3A

Con el tiempo de ejecución de Amazon EMR 7.10, Amazon EMR ha introducido EMR S3A, una implementación mejorada del conector del sistema de archivos S3A de código rajado. Este conector mejorado ahora se establece automáticamente como el conector del sistema de archivos S3 predeterminado para las opciones de implementación de Amazon EMR, incluidas Amazon EMR […]
Use los flujos de trabajo de flujo de atmósfera Apache para orquestar el procesamiento de datos en Amazon Sagemaker Unified Studio

La orquestación de tuberías de formación mecánico es confuso, especialmente cuando el procesamiento de datos, la capacitación y la implementación abarcan múltiples servicios y herramientas. En esta publicación, caminamos a través de un ejemplo práctico y de extremo a extremo de desarrollar, probar y ejecutar una tubería de formación mecánico (ML) utilizando capacidades de flujo […]
La cimentación de Amazon Sagemaker Lakehouse ahora automatiza la configuración de optimización de las tablas de Apache Iceberg en Amazon S3

A medida que las organizaciones adoptan cada vez más las tablas de Apache Iceberg para sus arquitecturas del estanque de datos en Servicios web de Amazon (AWS), nutrir estas tablas se vuelve crucial para el éxito a grande plazo. Sin el mantenimiento adecuado, las tablas de iceberg pueden malquistar varios desafíos: rendimiento de la consulta […]
Snowpark Connect para Apache Spark ™ en paisaje previa pública

En la traducción 3.4, la comunidad Apache Spark ™ introdujo Spark Connect. Su edificación de servidor cliente desacoplada separa el código del adjudicatario del clúster Spark donde se realiza el trabajo. Esta nueva edificación ahora permite ejecutar su código de chispa en un almacén de copos de cocaína que elimina la aprieto de aprovisionar y […]
Cómo Apache Iceberg está cambiando la cara de los lagos de datos

En pocas palabras: Iceberg es metadatos. Los archivos de datos se rastrean individualmente, en puesto de a nivel de directorio, mediante archivos manifiestos, listas manifiestas y archivos de metadatos. Esta capa de metadatos perfectamente coordinada significa que el iceberg no es víctima de algunos de los problemas más perniciosos que otros formatos de mesa comunes […]
Implementar examen en tiempo verdadero con Startree para Apache Pinot administrado en AWS

Esta publicación está cubierta con Mayank Shrivastava y Barkha Herman de Startree. Construir una devaluación latencia, entrada concurrencia y tiempo verdadero Procesamiento analítico en cadeneta (OLAP) La decisión se ha explorado previamente en el blog de AWS Big Data, donde caminamos a través de cómo Cree una decisión de examen en tiempo verdadero con Apache […]
Uso de tablas de Amazon S3 con Amazon RedShift para consultar las mesas de iceberg Apache

Amazon Redshift soporte Consulta de datos almacenados con tablas de Apache Icebergun formato de tabla libre que simplifica la mandato de datos tabulares que residen en lagos de datos en Servicio de almacenamiento simple de Amazon (Amazon S3). Tablas de Amazon S3 ofrece el primer almacén de objetos en la montón con soporte de iceberg […]
Inclusión de transformación de transformación en la transmisión estructurada Apache Spark ™

Inclusión El procesamiento de flujo con estado se refiere al procesamiento de un flujo continuo de eventos en tiempo vivo mientras mantiene el estado en función de los eventos vistos hasta ahora. Esto permite al sistema rastrear cambios y patrones con el tiempo en la secuencia de eventos, y permite tomar decisiones o tomar medidas […]
El tiempo de ejecución de Amazon EMR 7.5 para Apache Spark e Iceberg puede ejecutar cargas de trabajo de Spark 3,6 veces más rápido que Spark 3.5.3 y Iceberg 1.6.1.

El Tiempo de ejecución de Amazon EMR para Apache Spark ofrece un entorno de ejecución de parada rendimiento y al mismo tiempo mantiene una compatibilidad API del 100 % con el formato de tabla de código descubierto Apache Spark y Apache Iceberg. Amazon EMR en EC2, Amazon EMR sin servidor, Amazon EMR en Amazon EKS, […]