re: inventar 2025 mostró lo audaz Servicios web de Amazon (AWS) para el futuro de la analítica, una visión en la que los almacenes de datos, los lagos de datos y el avance de la IA convergen en una plataforma inteligente, abierta y sin interrupciones, con la compatibilidad con Apache Iceberg en su núcleo. A lo desprendido de más de 18 anuncios importantes que abarcaron tres semanas, AWS demostró cómo las organizaciones pueden romper los silos de datos, acelerar los conocimientos con IA y sustentar una gobernanza sólida sin ofrendar la agilidad.
Amazon SageMaker: su plataforma de datos, simplificada
AWS introdujo un enfoque más rápido y sencillo para la incorporación de plataformas de datos para Estudio unificado de Amazon SageMaker. La nueva experiencia de incorporación con un solo clic elimina semanas de configuración, por lo que los equipos pueden comenzar a trabajar con conjuntos de datos existentes en minutos usando su flagrante Encargo de ataque e identidad de AWS (IAM) roles y permisos. Accesible directamente desde Amazon SageMaker, Atenea amazónica, Desplazamiento al rojo del Amazonasy Tablas de Amazon S3 consolas, esta experiencia optimizada crea automáticamente proyectos de SageMaker Unified Studio con los permisos de datos existentes intactos. En esencia, es un nuevo y poderoso servidor sin servidor. computadora portátil que reinventa cómo trabajan los profesionales de datos. Esta interfaz única combina consultas SQL, código Python, procesamiento de Apache Spark y mensajes en jerigonza natural, respaldada por Amazon Athena para que Apache Spark escale desde la exploración interactiva hasta trabajos de escalera de petabytes. Los ingenieros, analistas y científicos de datos ya no necesitan cambiar de contexto entre diferentes herramientas según la carga de trabajo: pueden explorar datos con SQL, crear modelos con Python y utilizar audiencia de IA, todo en un solo ocasión.
El comienzo del agente de datos de Amazon SageMaker en los nuevos portátiles SageMaker marca un momento crucial en el avance asistido por IA para creadores de datos. Este agente integrado no solo genera código, sino que comprende el contexto de sus datos, la información del catálogo y los metadatos comerciales para crear planes de ejecución inteligentes a partir de descripciones en jerigonza natural. Cuando describe un objetivo, el agente analiza descomposición complejos y formación espontáneo (ML) en pasos manejables, genera el código SQL y Python requerido y mantiene el conocimiento del entorno de su notebook durante todo el proceso. Esta capacidad transforma horas de codificación manual en minutos de avance guiado, lo que significa que los equipos pueden centrarse en obtener conocimientos en ocasión de textos repetitivos.
Adoptando datos abiertos con Apache Iceberg
Un tema importante en los lanzamientos de este año fue la admisión generalizada de Apache Iceberg en los descomposición de AWS, transformando la forma en que las organizaciones administran lagos de datos a escalera de petabytes. Alianza de catálogos a catálogos remotos de Iceberg a través del Pegamento AWS Catálogo de datos aborda un desafío crítico en las arquitecturas de datos modernas. Ahora puede consultar tablas Iceberg remotas, almacenadas en Servicio de almacenamiento simple de Amazon (Amazon S3) y catalogados en catálogos remotos de Iceberg, utilizando los servicios de descomposición preferidos de AWS, como Amazon Redshift, EMR de AmazonAmazon Athena, AWS Glue y Amazon SageMaker, sin mover ni copiar tablas. Los metadatos se sincronizan en tiempo positivo y proporcionan resultados de consultas que reflejan el estado flagrante. La coalición de catálogos admite tanto el control de ataque caudillo como los permisos de ataque detallados a través de Formación del balsa AWS permitiendo el uso compartido entre cuentas y la propagación de identidades confiables mientras se mantiene una seguridad consistente en los catálogos federados.
Amazon Redshift ahora escribe directamente a Apache Iceberg tablas, lo que permite verdaderas arquitecturas de balsa abiertas donde los descomposición abarcan perfectamente los almacenes de datos y los lagos. Apache Spark en Amazon EMR 7.12AWS Glue, los cuadernos de Amazon SageMaker, Amazon S3 Tables y AWS Glue Data Catalog ahora admiten las capacidades de Iceberg V3, incluidos vectores de matanza que marcan filas eliminadas sin costosas reescrituras de archivos, lo que reduce drásticamente los costos de canalización y acelera las modificaciones de datos y el ralea de filas. V3 rastrea automáticamente el historial de cada registro, creando pistas de auditoría esenciales para el cumplimiento y tiene secreto a nivel de tabla que ayuda a las organizaciones a cumplir con estrictas regulaciones de privacidad. Estas innovaciones significan escrituras más rápidas, menores costos de almacenamiento, pistas de auditoría integrales y procesamiento incremental capaz en toda su edificación de datos.
Gobernanza que escalera con su ordenamiento
La gobernanza de datos recibió una atención sustancial en re:Invent con importantes mejoras en Catálogo de Amazon SageMaker. Las organizaciones ahora pueden decantarse datos a nivel de columna con formularios de metadatos personalizados y descripciones de texto enriquecidoindexado en tiempo positivo para una visibilidad inmediata. Nuevas reglas de aplicación de metadatos Exigir a los productores de datos que clasifiquen los activos con vocabulario comercial consentido ayer de su publicación, lo que proporciona coherencia en toda la empresa. El catálogo utiliza Roca Amazónica grandes modelos de jerigonza (LLM) para sugerir automáticamente términos relevantes del diccionario empresarial mediante el descomposición de metadatos de tablas e información de esquema, cerrando la brecha entre los esquemas técnicos y el jerigonza empresarial. Quizás lo más importante, El catálogo de SageMaker ahora exporta todos sus metadatos de activos como tablas Apache Iceberg consultables a través de Amazon S3 Tables. De esta forma, los equipos pueden analizar el inventario del catálogo con SQL habitual para objetar preguntas como «¿qué activos carecen de descripciones comerciales?» o «¿cuántos conjuntos de datos confidenciales se registraron el mes pasado?» sin construir una infraestructura ETL personalizada.
A medida que las organizaciones adoptan arquitecturas de múltiples almacenes para subir y aislar cargas de trabajo, el nuevo Permisos federados de Amazon Redshift La capacidad elimina la complejidad de la gobernanza. Defina permisos de datos una vez desde un almacén de Amazon Redshift y ellos los aplicarán automáticamente en todos los almacenes de su cuenta. Los controles de nivel de fila, de columna y de enmascaramiento se aplican de forma consistente independientemente del origen de las consultas del almacén, y los nuevos almacenes heredan automáticamente las políticas de permisos. Esta escalabilidad horizontal significa que las organizaciones pueden ampliar almacenes sin aumentar los gastos generales de administración, y los analistas ven inmediatamente las bases de datos de los almacenes registrados.
Acelerando la innovación en IA con Amazon OpenSearch Service
Servicio de búsqueda abierta de Amazon introdujo nuevas y potentes capacidades para simplificar y acelerar el avance de aplicaciones de IA. Con apoyo para Búsqueda abierta 3.3, busqueda agente permite resultados precisos utilizando entradas de jerigonza natural sin la carestia de consultas complejas, lo que facilita la creación de agentes de IA inteligentes. El nuevo Apache Calcite impulsado motor PPL ofrece optimización de consultas y una extensa biblioteca de comandos para un procesamiento de datos más capaz.
Como se ve en Conferencia soberbio de Matt Garmancrear bases de datos vectoriales a gran escalera ahora es dramáticamente más rápido con rapidez de GPU y optimización cibernética. Anteriormente, la creación de índices vectoriales a gran escalera requería días de tiempo de construcción y semanas de ajuste manual por parte de expertos, lo que ralentizaba la innovación e impedía optimizaciones de costos y rendimiento. Los nuevos trabajos de optimización cibernética sin servidor evalúan automáticamente las configuraciones de índice, incluidos los algoritmos de k vecinos más cercanos (k-NN), la cuantificación y la configuración del motor, en función de los requisitos de recuperación y latencia de búsqueda especificados. Combinado con la rapidez de GPU, puede crear índices optimizados hasta diez veces más rápido con un 25 % del costo de indexación, con GPU sin servidor que se activan dinámicamente y facturan solo cuando brindan aumentos de velocidad. Estos avances simplifican el escalado de aplicaciones de IA, como la búsqueda semántica, los motores de recomendación y los sistemas agentes, para que los equipos puedan innovar más rápido al resumir drásticamente el tiempo y el esfuerzo necesarios para crear bases de datos vectoriales optimizadas a gran escalera.
Optimización del rendimiento y los costes
Incluso anunciado en el fundamental, Amazon EMR sin servidor ahora elimina el aprovisionamiento de almacenamiento particular para cargas de trabajo de Apache Spark, introduciendo almacenamiento sin servidor que reduce los costos de procesamiento de datos hasta en un 20 % y al mismo tiempo evita fallas en los trabajos oportuno a limitaciones de capacidad del disco. El almacenamiento totalmente administrado y de escalamiento espontáneo emblema los datos en tránsito y en reposo con aislamiento a nivel de trabajo, lo que permite a Spark liberar a los trabajadores inmediatamente cuando están inactivos en ocasión de mantenerlos activos para preservar datos temporales. Encima, AWS Glue introdujo vistas materializadas basadas en Apache Iceberg, que almacenan resultados de consultas precalculados que se actualizan automáticamente a medida que cambian los datos de origen. Los motores Spark en Amazon Athena, Amazon EMR y AWS Glue reescriben de forma inteligente las consultas para utilizar estas vistas, lo que acelera el rendimiento hasta ocho veces y reduce los costos de computación. El servicio maneja automáticamente los programas de aggiornamento, la detección de cambios, las actualizaciones incrementales y la delegación de la infraestructura.
el nuevo Agente de aggiornamento de Apache Spark para Amazon EMR transforma las actualizaciones de versiones de proyectos de meses de duración en iniciativas de una semana de duración. Utilizando interfaces conversacionales, los ingenieros expresan los requisitos de aggiornamento en jerigonza natural mientras el agente identifica automáticamente los cambios de API y las modificaciones de comportamiento en las aplicaciones PySpark y Scala. Los ingenieros revisan y aprueban los cambios sugeridos ayer de la implementación, manteniendo el control total mientras el agente valida la corrección cómodo mediante controles de calidad de los datos. Actualmente admite actualizaciones de Spark 2.4 a 3.5, esta capacidad está adecuado a través de SageMaker Unified Studio. Kiro CLIo un entorno de avance integrado (IDE) con Protocolo de contexto maniquí compatibilidad.
Para optimizar el flujo de trabajo, AWS introdujo un nuevo Opción de implementación sin servidor para flujos de trabajo administrados por Amazon para Apache Airflow (Amazon MWAA), que elimina la sobrecarga operativa de regir entornos Apache Airflow y al mismo tiempo optimiza los costos mediante el escalado sin servidor. Esta nueva ofrecimiento aborda los desafíos esencia de escalabilidad operativa, optimización de costos y administración de ataque que enfrentan los ingenieros de datos y los equipos de DevOps al organizar flujos de trabajo. Con Amazon MWAA sin servidorlos ingenieros de datos pueden centrarse en aclarar la razonamiento de su flujo de trabajo en ocasión de monitorear la capacidad aprovisionada. Ahora pueden expedir sus flujos de trabajo de Airflow para su ejecución según un cronograma o bajo demanda, pagando solo por el tiempo de procesamiento positivo utilizado durante la ejecución de cada tarea.
Pensando en el futuro
Estos lanzamientos en conjunto representan más que mejoras incrementales. Señalan un cambio fundamental en la forma en que las organizaciones abordan la analítica. Al armonizar el almacenamiento de datos, los lagos de datos y el formación espontáneo bajo un situación global construido sobre Apache Iceberg, simplificar el ataque a través de interfaces inteligentes impulsadas por IA y sustentar una gobernanza sólida que escalera sin esfuerzo, AWS brinda a las organizaciones las herramientas para centrarse en conocimientos en ocasión de infraestructura. El intensidad en la automatización, desde el avance asistido por IA hasta las vistas materializadas autoadministradas y el almacenamiento sin servidor, reduce los gastos operativos al tiempo que mejoramiento el rendimiento y la rentabilidad. A medida que los volúmenes de datos continúan creciendo y la IA se vuelve cada vez más central para las operaciones comerciales, estas capacidades posicionan a los clientes de AWS para acelerar sus iniciativas basadas en datos con una simplicidad y potencia sin precedentes. Para ver la charla sobre innovación de Re:Invent 2025 sobre descomposición, visite Rendir el descomposición para los humanos y la IA en youtube.
Sobre los autores