Apache – Athrun Data Intelligence

Almacenamiento Snowflake para mesas Apache Iceberg™: Interoperabilidad simple de Snowflake

La promesa de una «casa del albufera abierta» siempre ha sido una cuestión de selección: de darle a cada equipo la posibilidad de usar su motor preferido, ya sea Snowflake o no. Pero a medida que las organizaciones adoptan Apache Iceberg™ como formato de datos interoperable, ha surgido un nuevo cuello de botella. Si […]

Optimice la distribución de temas de Apache Kafka con Amazon MSK

Si administra Apache Kafka hoy, sabrá el esfuerzo que requiere establecer temas. Ya sea que utilice soluciones de infraestructura como código (IaC) o realice operaciones con clientes de distribución, configurar la distribución de temas requiere un tiempo valioso que podría dedicarse a crear aplicaciones de transmisión. Streaming administrado por Amazon para Apache Kafka (Amazon MSK) […]

Reducción de costos para cargas de trabajo de Apache Spark con mucha reproducción aleatoria con almacenamiento sin servidor para Amazon EMR Serverless

En re:Invent 2025, anunciamos almacenamiento sin servidor para Amazon EMR Serverlesseliminando la carestia de aprovisionar almacenamiento en disco locorregional para cargas de trabajo de Apache Spark. El almacenamiento sin servidor de Amazon EMR Serverless reduce los costos de procesamiento de datos hasta en un 20 % al mismo tiempo que ayuda a organizar fallas en […]

Anuncio de compatibilidad con Apache Iceberg v3 en Snowflake

El soporte de larga data de Snowflake para el tipo de datos transformación ahora se extiende a las tablas Iceberg con v3, que incluye soporte para lotes (COPIAR), microlote (tubo de cocaína) y transmisión (Transmisión de Snowpipe) canaliza directamente a las tablas Iceberg con subcolumnarización cibernética (“trituración”) para un rendimiento de recitación enormemente optimizado. […]

Una implementación de codificación para crear una canalización unificada de Apache Beam que demuestra el procesamiento por lotes y transmisiones con ventanas de tiempo de eventos mediante DirectRunner

En este tutorial, demostramos cómo construir un unificado Haz Apache canalización que funciona a la perfección tanto en modo por lotes como en modo secuencial utilizando DirectRunner. Generamos datos sintéticos que tienen en cuenta la hora del evento y aplicamos ventanas fijas con activadores y retrasos permitidos para demostrar cómo Apache Beam maneja consistentemente eventos […]

Cree y actualice tablas de Apache Iceberg con particiones en el catálogo de datos de AWS Glue mediante AWS SDK y AWS CloudFormation.

En los últimos abriles, hemos sido testigos de un cambio significativo en la forma en que las empresas gestionan y analizan sus lagos de datos en constante crecimiento. A la vanguardia de esta transformación está Iceberg apacheun formato de tabla abierta que está ganando contorno rápidamente entre los consumidores de datos a gran escalera. Sin […]

Presentamos AWS Glue 5.1 para Apache Spark

Pegamento AWS es un servicio de integración de datos escalable y sin servidor que simplifica el descubrimiento, la preparación, el movimiento y la integración de datos de múltiples fuentes. AWS anunció recientemente Glue 5.1, una nueva traducción de AWS Glue que acelera las cargas de trabajo de integración de datos en AWS. AWS Glue 5.1 […]

Acelere las operaciones del balsa de datos con los vectores de matanza y el género de filas de Apache Iceberg V3

Las organizaciones que crean lagos de datos a escalera de petabytes enfrentan desafíos cada vez mayores a medida que crecen sus datos. Las actualizaciones por lotes y las eliminaciones de cumplimiento crean una proliferación de archivos de matanza posicionales, lo que ralentiza los canales de datos posteriores y aumenta los costos de almacenamiento. El seguimiento […]

Logre un rendimiento de consultas del charcal de datos 2 veces más rápido con Apache Iceberg en Amazon Redshift

Con la creciente admisión de formatos de mesa abierta como Iceberg apache, Desplazamiento al rojo del Amazonas continúa avanzando en sus capacidades para lagos de datos de formato descubierto. En 2025, Amazon Redshift realizó varias optimizaciones de rendimiento que duplicaron el rendimiento de las consultas para las cargas de trabajo de Iceberg en Amazon Redshift […]

Ejecute trabajos de escritura de Apache Spark y Apache Iceberg 2 veces más rápido con Amazon EMR

Tiempo de ejecución de Amazon EMR para Apache Spark ofrece un entorno de ejecución de stop rendimiento al tiempo que mantiene la compatibilidad de API con código amplio chispa apache y Iceberg apache formato de tabla. Amazon EMR en EC2, Amazon EMR sin servidor, Amazon EMR en Amazon EKS, Amazon EMR en puestos avanzados de […]

Etiqueta: Apache