Una implementación de codificación para crear una canalización unificada de Apache Beam que demuestra el procesamiento por lotes y transmisiones con ventanas de tiempo de eventos mediante DirectRunner

En este tutorial, demostramos cómo construir un unificado Haz Apache canalización que funciona a la perfección tanto en modo por lotes como en modo secuencial utilizando DirectRunner. Generamos datos sintéticos que tienen en cuenta la hora del evento y aplicamos ventanas fijas con activadores y retrasos permitidos para demostrar cómo Apache Beam maneja consistentemente eventos […]
Cree y actualice tablas de Apache Iceberg con particiones en el catálogo de datos de AWS Glue mediante AWS SDK y AWS CloudFormation.

En los últimos abriles, hemos sido testigos de un cambio significativo en la forma en que las empresas gestionan y analizan sus lagos de datos en constante crecimiento. A la vanguardia de esta transformación está Iceberg apacheun formato de tabla abierta que está ganando contorno rápidamente entre los consumidores de datos a gran escalera. Sin […]
Presentamos AWS Glue 5.1 para Apache Spark

Pegamento AWS es un servicio de integración de datos escalable y sin servidor que simplifica el descubrimiento, la preparación, el movimiento y la integración de datos de múltiples fuentes. AWS anunció recientemente Glue 5.1, una nueva traducción de AWS Glue que acelera las cargas de trabajo de integración de datos en AWS. AWS Glue 5.1 […]
Acelere las operaciones del balsa de datos con los vectores de matanza y el género de filas de Apache Iceberg V3

Las organizaciones que crean lagos de datos a escalera de petabytes enfrentan desafíos cada vez mayores a medida que crecen sus datos. Las actualizaciones por lotes y las eliminaciones de cumplimiento crean una proliferación de archivos de matanza posicionales, lo que ralentiza los canales de datos posteriores y aumenta los costos de almacenamiento. El seguimiento […]
Logre un rendimiento de consultas del charcal de datos 2 veces más rápido con Apache Iceberg en Amazon Redshift

Con la creciente admisión de formatos de mesa abierta como Iceberg apache, Desplazamiento al rojo del Amazonas continúa avanzando en sus capacidades para lagos de datos de formato descubierto. En 2025, Amazon Redshift realizó varias optimizaciones de rendimiento que duplicaron el rendimiento de las consultas para las cargas de trabajo de Iceberg en Amazon Redshift […]
Ejecute trabajos de escritura de Apache Spark y Apache Iceberg 2 veces más rápido con Amazon EMR

Tiempo de ejecución de Amazon EMR para Apache Spark ofrece un entorno de ejecución de stop rendimiento al tiempo que mantiene la compatibilidad de API con código amplio chispa apache y Iceberg apache formato de tabla. Amazon EMR en EC2, Amazon EMR sin servidor, Amazon EMR en Amazon EKS, Amazon EMR en puestos avanzados de […]
Ejecute Apache Spark e Iceberg 4,5 veces más rápido que Spark de código descubierto con Amazon EMR

Esta publicación muestra cómo Amazon EMR 7.12 puede hacer que sus cargas de trabajo de Apache Spark e Iceberg tengan un rendimiento hasta 4,5 veces más rápido. El Tiempo de ejecución de Amazon EMR para Apache Spark proporciona un entorno de ejecución de detención rendimiento con compatibilidad API total con código descubierto chispa apache y […]
Optimizar el tiempo de ejecución de Amazon EMR para Apache Spark con EMR S3A

Con el tiempo de ejecución de Amazon EMR 7.10, Amazon EMR ha introducido EMR S3A, una implementación mejorada del conector del sistema de archivos S3A de código rajado. Este conector mejorado ahora se establece automáticamente como el conector del sistema de archivos S3 predeterminado para las opciones de implementación de Amazon EMR, incluidas Amazon EMR […]
Use los flujos de trabajo de flujo de atmósfera Apache para orquestar el procesamiento de datos en Amazon Sagemaker Unified Studio

La orquestación de tuberías de formación mecánico es confuso, especialmente cuando el procesamiento de datos, la capacitación y la implementación abarcan múltiples servicios y herramientas. En esta publicación, caminamos a través de un ejemplo práctico y de extremo a extremo de desarrollar, probar y ejecutar una tubería de formación mecánico (ML) utilizando capacidades de flujo […]
La cimentación de Amazon Sagemaker Lakehouse ahora automatiza la configuración de optimización de las tablas de Apache Iceberg en Amazon S3

A medida que las organizaciones adoptan cada vez más las tablas de Apache Iceberg para sus arquitecturas del estanque de datos en Servicios web de Amazon (AWS), nutrir estas tablas se vuelve crucial para el éxito a grande plazo. Sin el mantenimiento adecuado, las tablas de iceberg pueden malquistar varios desafíos: rendimiento de la consulta […]