Desarrollar y probar AWS Glue 5.0 Jobs localmente utilizando un contenedor Docker

AWS Glue es un servicio de integración de datos sin servidor que le permite procesar e integrar datos que se realizan a través de diferentes fuentes de datos a escalera. AWS Glue 5.0, la última lectura de AWS Glue for Apache Spark Jobs, proporciona una experiencia de tiempo de ejecución Apache 3.5 optimizada para el […]
Paso a las mesas de iceberg de Amazon S3 desde Databricks utilizando el catálogo de REST de iceberg de Glue AWS en Amazon Sagemaker Lakehouse

Amazon Sagemaker Lakehouse Permite una plataforma Lakehouse unificada, abierta y segura en sus lagos y almacenes de datos existentes. Su inmueble de datos unificadas admite examen de datos, inteligencia empresarial, educación forzoso y IA generativa Aplicaciones, que ahora pueden usar una única copia autorizada de datos. Con Sagemaker Lakehouse, obtienes lo mejor de entreambos mundos: […]
Anuncio de la traducción preliminar pública de Hive Metastore y AWS Glue Federation en Unity Catalog

¡Nos complace anunciar la traducción preliminar pública de Hive Metastore (HMS) y AWS Glue Federation en Unity Catalog! Esta nueva capacidad permite a Unity Catalog ceder y timonear sin problemas las tablas almacenadas en Hive Metastores, ya sean internas o externas a Databricks, así como a AWS Glue. Representa un hito secreto en nuestra Asociación […]
Presentamos la automatización de AWS Glue Data Catalog para la colección de estadísticas de tablas para mejorar el rendimiento de las consultas en Amazon Redshift y Amazon Athena.

El Catálogo de datos de AWS Glue ahora automatiza la vivientes de estadísticas para nuevas tablas. Estas estadísticas están integradas con el optimizador basado en costos (CBO) de Espectro de desplazamiento al rojo de Amazon y Atenea amazónicalo que resulta en un mejor rendimiento de las consultas y posibles ahorros de costos. Las consultas sobre […]
Presentación de la alternativa de problemas de IA generativa para Apache Spark en AWS Glue (paisaje previa)

Las organizaciones ejecutan millones de aplicaciones Apache Spark cada mes para preparar, mover y procesar sus datos para prospección y enseñanza maquinal (ML). La creación y el mantenimiento de estas aplicaciones Spark es un proceso iterativo en el que los desarrolladores dedican mucho tiempo a probar y solucionar problemas de su código. Durante el avance, […]
El catálogo de datos de AWS Glue ahora admite la optimización del almacenamiento de las tablas Apache Iceberg

El Catálogo de datos de AWS Glue Ahora mejoramiento la optimización de tablas administradas de Apache Iceberg al eliminar automáticamente los archivos de datos que ya no son necesarios. Yuxtapuesto con la optimización automatizada de Glue Data Catalog compactación característica, estas optimizaciones de almacenamiento pueden ayudarle a acortar la sobrecarga de metadatos, controlar los costos […]