Athrun Data Intelligence

Snowpark Connect para Apache Spark ™ en paisaje previa pública

En la traducción 3.4, la comunidad Apache Spark ™ introdujo Spark Connect. Su edificación de servidor cliente desacoplada separa el código del adjudicatario del clúster Spark donde se realiza el trabajo. Esta nueva edificación ahora permite ejecutar su código de chispa en un almacén de copos de cocaína que elimina la aprieto de aprovisionar y […]

Cómo Apache Iceberg está cambiando la cara de los lagos de datos

En pocas palabras: Iceberg es metadatos. Los archivos de datos se rastrean individualmente, en puesto de a nivel de directorio, mediante archivos manifiestos, listas manifiestas y archivos de metadatos. Esta capa de metadatos perfectamente coordinada significa que el iceberg no es víctima de algunos de los problemas más perniciosos que otros formatos de mesa comunes […]

Implementar examen en tiempo verdadero con Startree para Apache Pinot administrado en AWS

Esta publicación está cubierta con Mayank Shrivastava y Barkha Herman de Startree. Construir una devaluación latencia, entrada concurrencia y tiempo verdadero Procesamiento analítico en cadeneta (OLAP) La decisión se ha explorado previamente en el blog de AWS Big Data, donde caminamos a través de cómo Cree una decisión de examen en tiempo verdadero con Apache […]

Cree un motor de reglas dinámicas con Amazon Managed Service para Apache Flink

Imagina que tienes algunos datos de transmisión. Podría ser desde un sensor de Internet de las cosas (IoT), una ingesta de datos de registros o incluso datos de impresiones del comprador. Independientemente de la fuente, a usted se le ha asignado la tarea de realizar sobre los datos: alertar o activar cuando ocurre poco. Martín […]

El catálogo de datos de AWS Glue ahora admite la optimización del almacenamiento de las tablas Apache Iceberg

El Catálogo de datos de AWS Glue Ahora mejoramiento la optimización de tablas administradas de Apache Iceberg al eliminar automáticamente los archivos de datos que ya no son necesarios. Yuxtapuesto con la optimización automatizada de Glue Data Catalog compactación característica, estas optimizaciones de almacenamiento pueden ayudarle a acortar la sobrecarga de metadatos, controlar los costos […]