Athrun Data Intelligence


Con un crecimiento de uso interanual de más del 300 % durante 2 primaveras consecutivos, Delta Sharing es el protocolo rajado más adoptivo para compartir datos e inteligencia sintético. Los principales proveedores de datos, incluidos SAP, Walmart, Atlassian y LSEG, utilizan Delta Sharing para compartir datos con sus socios y clientes a través de nubes y plataformas. Hoy, nos complace anunciar que Databricks Delta Sharing tiene soporte de primera clase para el formato Apache Iceberg.

Los proveedores de datos ahora pueden compartir datos de forma segura y en vivo desde Databricks con cualquier cliente que admita la API del catálogo REST de Apache Iceberg. Los destinatarios de plataformas como Snowflake, Trino, Flink y Spark en todas las nubes pueden utilizar esta capacidad, lo que se suma al ecosistema rajado de Delta Sharing.

Adicionalmente, estamos lanzando una interpretación preliminar privada que permite a los proveedores de datos utilizar Delta Sharing para compartir tablas Iceberg administradas por catálogos fuera de Databricks, incluidos AWS Glue, Hive Metastore, Snowflake Horizon y más.

Figura 1: Unificar los formatos para compartir y colaborar para un ecosistema abierto
Figura 1: Equiparar los formatos para compartir y colaborar para un ecosistema rajado

Juntos, pueden compartir cualquier tabla nueva o existente (Delta o Iceberg, administrada o extranjera). Esto contribuye a una interoperabilidad abierta y completa. Puede incorporar tablas Iceberg desde cualquier catálogo forastero, administrarlas a través de Databricks y Unity Catalog y luego compartirlas con cualquier destinatario, ya sea en Databricks, un cliente Iceberg o un cliente Delta. Esto le permite rendir Unity Catalog como su capa de gobierno de datos unificada, brindándole un emplazamiento para compartir.

En esta publicación de blog, explicaremos por qué es importante compartir datos abiertos. Igualmente profundizaremos en cómo funciona Delta Sharing para los clientes de Iceberg a través de una demostración praxis.

Por qué esto es importante: compartir rajado contra cerrado

La mayoría de las soluciones para compartir datos en efectividad no comparten, sino que atrapan. Están fundamentalmente cerrados y diseñados para respaldar la dependencia del proveedor, por lo que solo puedes compartir con otras personas que ya están interiormente de sus ecosistemas cerrados. Esto limita sus opciones, sofoca la innovación e impulsa una replicación de datos masiva e inútil.

Delta Sharing es el en serie rajado más ampliamente adoptivo para compartir datos de forma segura. Utilizado por proveedores de datos líderes en su categoría, está diseñado para asilar diferentes nubes y plataformas. Delta Sharing opera según tres principios básicos:

  • Comparte cualquier activo.
  • Comparte con cualquiera.
  • Comparte sin fricciones.

Adicionar el soporte al cliente de Iceberg fortalece este compromiso. Le permite compartir una tabla Delta mientras los destinatarios la experimentan como una tabla Iceberg nativa. El intercambio se realiza a través de la API REST de Iceberg, por lo que los destinatarios pueden conectarse desde cualquier plataforma compatible con Iceberg. Esto le permite obtener lo mejor de entreambos mundos: los proveedores de datos se benefician de las funciones avanzadas de Delta Sharing, como compartir vistas, mientras que los destinatarios reciben tablas Iceberg nativas a través de la API REST de Iceberg.

Figura 2: Comparta datos directamente con herramientas compatibles con Iceberg
Figura 2: Comparta datos directamente con herramientas compatibles con Iceberg

Los destinatarios obtienen acercamiento seguro y en vivo a los datos de origen. Esto elimina los silos y le permite compartir datos abiertamente con cualquier persona.

Esta característica es ideal para organizaciones que necesitan compartir datos externamente con socios y clientes que utilizan clientes Iceberg, como aquellos que operan en Snowflake o se integran con plataformas como Trino, Flink o Spark. Las empresas con múltiples unidades de negocio que operan en múltiples plataformas igualmente se benefician al desbloquear el intercambio de datos bidireccional y fluido en entornos híbridos o de múltiples nubes. Las industrias que ya aprovechan estos patrones incluyen la atención médica, el comercio minorista, las finanzas, la tecnología publicitaria y más.

Interoperabilidad: origen y destino

Adecuado a que creemos en el acercamiento total a los datos abiertos, no nos limitamos a compartir datos con los clientes de Iceberg. Ahora estamos desarrollando la ulterior progreso: compartir tablas Iceberg extranjeras que residen en catálogos externos como AWS Glue o Snowflake Horizon. Nos complace anunciar la horizonte previa privada del soporte de Delta Sharing para mesas Iceberg extranjeras.

Te preguntarás: ¿Por qué compartir una mesa Iceberg? a través de ¿Delta Sharing si reside en AWS Glue o Snowflake? ¿Por qué no compartir directamente desde esa plataforma?

Primero, al catalogar sus datos externos de Iceberg en Unity Catalog, obtiene un gobernanza unificada capa en Unity Catalog, lo que le permite obtener visibilidad y control totales de su patrimonio de datos. Adicionalmente, utilizar Delta Sharing le permite obtener la lo mejor de entreambos mundos: Usted se beneficiará de las mejores funcionalidades de intercambio de Delta Sharing, manteniendo sus datos en formato Iceberg. Esto incluye, por ejemplo, la capacidad de Delta Share Views para un control de acercamiento detallado, que no es compatible de forma nativa con la API de IRC de Iceberg.

Con esta horizonte previa privada, Databricks Lakehouse está rajado en ambas direcciones. Su Lakehouse puede compartir y percibir datos del creciente ecosistema Iceberg.

Esta doble diplomacia te brinda:

  • Colaboración sencilla: Trabajen juntos sin importar el formato de tabla abierta que utilicen (Delta o Iceberg).
  • Compartir gobernado: Unity Catalog controla el acercamiento y proporciona registros de auditoría.
  • Resonancia más amplio: Comparta datos como proveedor y destinatario, rompiendo los muros de la plataforma.

¿Cómo funciona?

Imagina tu empresa, Corporación proveedorautiliza Databricks y Delta Lake para regir los datos de los clientes. Necesita compartir de forma segura una directorio diaria de ventas de productos con socio incque utiliza Snowflake y prefiere el formato Iceberg.

Antaño de esta característica: Provider Corp tendría que exportar manualmente los datos, transformarlos a un formato descifrable por Snowflake, cargarlos en el almacenamiento en la abundancia del socio y configurar un trabajo de sincronización complicado. Esto es cachazudo, costoso, implica una importante sobrecarga administrativa y corre el aventura de que los datos queden obsoletos.

Con Delta Sharing para clientes de Iceberg:

  1. Corporación proveedora permite que Iceberg lea datos de ventas a través de UniForm (esto puede incluir tablas, vistas, vistas materializadas y tablas de transmisión Delta administradas y externas) y los comparte a través de Delta Sharing. Esto proporciona acercamiento en vivo sin pobreza de duplicación ni reingestión.
  2. socio inc configura una conexión simple en Snowflake utilizando las credenciales proporcionadas para una autenticación segura mediante tokens de portador de corta duración.
  3. Los analistas de Partner Inc pueden consultar inmediatamente la tabla compartida utilizando SQL en serie, tratándola como una tabla Iceberg nativa en su entorno Snowflake.
  4. Los datos que ven son siempre estar (copia cero), y Provider Corp mantiene plena seguridad y gobernanza con auditoría y monitoreo usando Unity Catalog.

Esto hace que el intercambio de datos sea instantáneo, seguro y totalmente independiente del formato.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *