Los equipos de ingeniería de datos se encuentran bajo una presión sin precedentes. Se les ha encomendado la tarea de construir la saco de datos para la IA generativa y el descomposición innovador, pero los estudios muestran una asombrosa El 75% de los proyectos de IA no llegan a producción. ¿Por qué?
El problema no son los modelos de IA; son las bases de datos fragmentados de las que dependen.
El ingeniero de datos presente a menudo se ve obligado a hacerse cargo el papel de bombero, dedicando su valioso tiempo a apagar incendios y realizar trabajos de mantenimiento de rutina en su infraestructura en empleo de innovar. Están constantemente uniendo canales de datos rígidos y complejos, arreglando dependencias rotas y administrando infraestructura fragmentada en silos.
Nos complace anunciar la disponibilidad caudillo (GA) de capacidades avanzadas de ingeniería de datos para formatos de tabla abierta en Snowflake, lo que permite a cualquier ordenamiento construir una casa de lagunajo unificada, gobernada y de parada rendimiento para la era de la IA.
Con estas mejoras, estamos eliminando las elecciones forzadas del pasado entre flexibilidad y simplicidad, transigencia y seguridad, y sitio e interoperabilidad. He aquí cómo:
-
Utilice bases de datos vinculadas a catálogos (GA): Federe con cualquier catálogo REST de Iceberg, incluidos AWS Glue, Databricks Unity y Microsoft OneLake, todo desde un único entorno de incremento Snowflake para descubrir y conseguir automáticamente a datos nuevos. Esto cumple con los requisitos de la casa del lagunajo. ETL cero promesa, al tiempo que proporciona interoperabilidad y potencia de procesamiento sin precedentes con el motor de rendimiento de clase mundial de Snowflake.
-
Escriba en cualquier tabla Apache Iceberg™ (GA): Ahora se admite la ingeniería de datos completa para cualquier tabla Iceberg, independientemente del catálogo restante de Iceberg. Los usuarios pueden centralizar no solo el descubrimiento sino todavía las operaciones de ingesta, transformación y modelado en la plataforma unificada y totalmente administrada de Snowflake. Como resultado, dedica más tiempo a innovar y menos a dirigir la infraestructura.
-
Aproveche la optimización cibernética de Iceberg: Obtenga la flexibilidad de los formatos abiertos sin la sobrecarga operativa. Con Snowflake, ahora puede optimizar los tamaños de archivos y las particiones (ahora en GA) para todo su ecosistema Iceberg para optimizar el rendimiento, independientemente del catálogo o motor. Por otra parte, automatice fácilmente las operaciones de mantenimiento de tablas (ahora en presencia previa privada), como la caducidad de instantáneas, la compactación de archivos y la reescritura de manifiestos, para obtener un rendimiento superior de las consultas y una trámite simplificada en toda su casa del lagunajo.
-
Comparta activos de datos en formatos abiertos (GA): El copo de cocaína está seguro El intercambio de datos sin ETL ahora es compatible con Iceberg y Delta Lake tablas independientemente del catálogo. Esto significa que puede compartir de forma posible y segura formatos de tablas abiertas entre regiones y nubes con políticas de seguridad y gobernanza persistentes para su cliente de datos.
Estas soluciones desbloquean por completo el conjunto de soluciones de colaboración e ingeniería de datos de Snowflake, desde la ingesta hasta el impacto empresarial, para ayudar a más organizaciones a aventajar la complejidad de los datos y alcanzar su potencial de IA.
Conquistar la complejidad de los datos: el nuevo ideal de la ingeniería de datos
El cambio a un serio lagunajo de datos preparado para la IA requiere eliminar tres puntos de fricción principales que afectan a los equipos de datos modernos: destinar tiempo a unir arquitecturas de datos rígidas y fragmentadas, reparar canales rotos y complejos y dirigir una gobernanza inconsistente entre silos.
Así es como la nueva GA de Snowflake y las capacidades existentes abordan estos problemas para permitir que los equipos de ingeniería de datos se concentren en entregar datos confiables para la IA.
Conecte los datos de forma segura, dondequiera que se encuentren
La promesa de Lakehouse está en su flexibilidad abierta y multiformato, pero esa visión a menudo se ve socavada por la complejidad de dirigir metadatos y catálogos en diferentes equipos, regiones y nubes. Para aventajar este desafío, estamos cumpliendo la visión de una casa en el lagunajo unificada, conectada y gobernada.
Supere la fragmentación de los datos existentes con bases de datos vinculadas a catálogos y conecte nuevos datos con una patrimonio superior:
-
Conecte nuevos datos con una patrimonio mejorada: Disfrute de un maniquí de precios más simple y predecible basado en el barriguita de datos, que ha resultado en una reducción de costos de ingestión de más del 50 % para los clientes de la estampado Business Critical/Potencial Private Snowflake (y se demora que la implementación completa se complete pronto). Con Snowpipe, cercano con Snowpipe Streaming API, puede transferir datos con la latencia que elija o simplemente conectar datos multimodales desde cualquier empleo utilizando Snowflake Openflow, un servicio de integración administrado con poco código.
-
Expande tu ecosistema Iceberg: Acceda a datos en tablas Delta con archivos Delta Direct y Parquet con transformaciones de metadatos simples para una presencia verdaderamente unificada de todo su patrimonio de datos.
-
Desbloquee datos listos para IA: Prepare su IA de datos haciéndola conectada, continua, seleccionada y contextualizada para la IA. Automatice la preparación de datos no estructurados o simplemente agregue datos listos para consultar de fuentes de terceros confiables con Snowflake Cortex AI, utilizando Document AI, Cortex AISQL y Cortex Knowledge Colchoneta.
Esto significa que puedes unifique su patrimonio de datos fragmentados en un panel centralizado y gobernado, independientemente de la ubicación o el catálogo, manteniendo al mismo tiempo la flexibilidad y las opciones que ofrece el amplio soporte del ecosistema de Iceberg.
Optimice los ductos con una infraestructura totalmente administrada
La pérdida de tiempo más importante de un ingeniero de datos es la trámite manual de gráficos de dependencia y la depuración del código de transformación de datos de procedimiento. Merece una mejor guisa de crear canales de datos de víctima latencia.
Llevamos el poder de Snowflake AI Data Cloud a sus datos de formato hendido con funciones diseñadas para eliminar la complejidad de la trámite de canalizaciones:
-
Utilice tablas dinámicas para Iceberg: Al usar un situación SQL declarativo, simplemente defina el resultado deseado de su transformación de datos y Snowflake manejará automáticamente la orquestación, la trámite de dependencias, la programación y la modernización incremental. El resultado son canales totalmente administrados que liberan horas de incremento y brindan datos eficientes y estables.
-
Acelerar los oleoductos existentes: Para equipos que ejecutan extensas bases de código Spark, Snowpark Connect para Apache Spark™ le permite ejecutar cargas de trabajo de Spark directamente en el motor de parada rendimiento de Snowflake, lo que a menudo resulta en mejoras sustanciales en la relación precio-rendimiento. Los clientes ven Rendimiento 5,6 veces más rápido y economía de costes del 41 % con Snowpark sobre su entorno tradicional Spark.1
-
Trabaja a tu guisa: Mantenga la flexibilidad del desarrollador utilizando el idioma de su dilema con soporte para SQL, Python o Java. Automatice la trámite de objetos en una canalización de CI/CD con Snowflake CLI, proyectos dbt, integración GIT y otras herramientas que ayudan a su equipo a crear canalizaciones de producción con una eficiencia óptima.
Administrar para la IA: ofrecer productos de datos confiables
Los modelos de IA/ML se basan en datos gobernados y de adhesión calidad para evitar sesgos y suscitar resultados confiables. Esto significa que se deben incorporar capacidades de gobernanza, calidad de datos y descubrimiento. Esto es particularmente difícil en arquitecturas tipo lagunajo donde los datos residen en múltiples regiones, nubes y herramientas. Snowflake Horizon Catalog centraliza la gobernanza de la IA al proporcionar capacidad de suministro unificada independientemente de dónde se encuentren sus datos.
Horizon Catalog le ayuda a crear una saco de datos auditable, segura y preparada para sus iniciativas de IA/ML más críticas:
-
Gobernanza centralizada e inteligente con Horizon Catalog: El catálogo Snowflake Horizon proporciona una capa de gobernanza única e inteligente que aplica políticas en todas las regiones, nubes y todos los objetos de datos, incluidas las tablas Iceberg, independientemente del catálogo.
-
Acercamiento a datos aislados: Implemente funciones de seguridad listas para usar, como controles de camino basados en roles que separan la función de la identidad, controles de camino específicos (FGAC) y controles de camino basados en atributos (ABAC) para crear políticas de camino precisas en tiempo positivo. Aísle los datos confidenciales y asegúrese de que solo los usuarios autorizados o los modelos de ML puedan conseguir a campos específicos, independientemente de la fuente.
-
La calidad de los datos como poco innegociable: Aproveche los controles de calidad de los datos personalizables y las alertas proactivas (actualmente en lectura preliminar privada) que aíslan los registros incorrectos para su corrección. Usted apetito la confianza de que cada producto de datos entregado (ya sea en un panel, en una aplicación o en un maniquí de IA de vivientes) es consistente y confiable.
La cúmulo de datos de IA de Snowflake: construir para la innovación
El objetivo de la ingeniería de datos moderna es proporcionar el camino más corto desde los datos sin procesar hasta el impacto empresarial. Esta lectura GA marca un gran paso delante para hacer que ese camino sea simple, hendido y escalable.
Clientes como Affirm ahora tienen soberanía sobre sus datos y la simplicidad operativa que necesitan para subir su saco de datos nómina para IA. Affirm ha experimentado una reducción de 6 veces en los costos mensuales de los canales de replicación y una perfeccionamiento de hasta un 66 % en los SLA críticos. Mira sus presentación.
Es hora de que los ingenieros de datos se deshagan de la carga del bombero reactivo y asuman su papel como artesanos expertos en datos. Deje de dirigir infraestructuras y dependencias complejas. Comience a ofrecer innovación.
¿Agudo para conquistar la complejidad de los datos?
-
Vea la alternativa: Mire “Data Engineer Connect: Casa para IA” para ver demostraciones.
-
Sumérgete más profundamente: Accede a la página de soluciones para obtener instrucciones detalladas para cada uno de los casos de uso.
-
Comienzo a construir.
Declaraciones prospectivas
Este artículo contiene declaraciones prospectivas, incluso sobre nuestras futuras ofertas de productos, y no constituye compromisos para ofrecer ninguna proposición de productos. Los resultados y ofertas reales pueden retardar y están sujetos a riesgos e incertidumbres conocidos y desconocidos. Consulte nuestro postrer 10-Q para obtener más información.
1Basado en casos de uso de producción de clientes y ejercicios de prueba de concepto que comparan la velocidad y el costo de Snowpark con los servicios administrados de Spark entre noviembre de 2022 y mayo de 2025. Todos los hallazgos compendio los resultados reales de los clientes con datos reales y no representan conjuntos de datos fabricados utilizados para los puntos de remisión.