La cimentación de Amazon Sagemaker Lakehouse ahora automatiza la configuración de optimización de las tablas de Apache Iceberg en Amazon S3

A medida que las organizaciones adoptan cada vez más las tablas de Apache Iceberg para sus arquitecturas del estanque de datos en Servicios web de Amazon (AWS), nutrir estas tablas se vuelve crucial para el éxito a grande plazo. Sin el mantenimiento adecuado, las tablas de iceberg pueden malquistar varios desafíos: rendimiento de la consulta […]
Cómo Apache Iceberg está cambiando la cara de los lagos de datos

En pocas palabras: Iceberg es metadatos. Los archivos de datos se rastrean individualmente, en puesto de a nivel de directorio, mediante archivos manifiestos, listas manifiestas y archivos de metadatos. Esta capa de metadatos perfectamente coordinada significa que el iceberg no es víctima de algunos de los problemas más perniciosos que otros formatos de mesa comunes […]
Uso de tablas de Amazon S3 con Amazon RedShift para consultar las mesas de iceberg Apache

Amazon Redshift soporte Consulta de datos almacenados con tablas de Apache Icebergun formato de tabla libre que simplifica la mandato de datos tabulares que residen en lagos de datos en Servicio de almacenamiento simple de Amazon (Amazon S3). Tablas de Amazon S3 ofrece el primer almacén de objetos en la montón con soporte de iceberg […]
Paso a las mesas de iceberg de Amazon S3 desde Databricks utilizando el catálogo de REST de iceberg de Glue AWS en Amazon Sagemaker Lakehouse

Amazon Sagemaker Lakehouse Permite una plataforma Lakehouse unificada, abierta y segura en sus lagos y almacenes de datos existentes. Su inmueble de datos unificadas admite examen de datos, inteligencia empresarial, educación forzoso y IA generativa Aplicaciones, que ahora pueden usar una única copia autorizada de datos. Con Sagemaker Lakehouse, obtienes lo mejor de entreambos mundos: […]
El tiempo de ejecución de Amazon EMR 7.5 para Apache Spark e Iceberg puede ejecutar cargas de trabajo de Spark 3,6 veces más rápido que Spark 3.5.3 y Iceberg 1.6.1.

El Tiempo de ejecución de Amazon EMR para Apache Spark ofrece un entorno de ejecución de parada rendimiento y al mismo tiempo mantiene una compatibilidad API del 100 % con el formato de tabla de código descubierto Apache Spark y Apache Iceberg. Amazon EMR en EC2, Amazon EMR sin servidor, Amazon EMR en Amazon EKS, […]
El catálogo de datos de AWS Glue ahora admite la optimización del almacenamiento de las tablas Apache Iceberg

El Catálogo de datos de AWS Glue Ahora mejoramiento la optimización de tablas administradas de Apache Iceberg al eliminar automáticamente los archivos de datos que ya no son necesarios. Yuxtapuesto con la optimización automatizada de Glue Data Catalog compactación característica, estas optimizaciones de almacenamiento pueden ayudarle a acortar la sobrecarga de metadatos, controlar los costos […]