Nos complace anunciar la lectura preliminar pública de la saldo de credenciales para las API abiertas de Unity Catalog, que permite a los clientes externos entrar de forma segura a las tablas externas y administradas de Unity Catalog a través de las API REST de Unity de código destapado y a las tablas habilitadas para UniForm a través de las API del catálogo REST de Iceberg. Esta característica facilita una interoperabilidad perfecta entre una amplia viso de motores y herramientas como Apache Spark™, DuckDB, Daft, PuppyGraph, StarRocks, Spice AI, Microsoft Fabric, Salesforce Data Cloud y motores de catálogo Iceberg REST como Trino y Dremio.
Como la única posibilidad de gobernanza unificada y abierta de la industria para datos y activos de IA, Catálogo de mecanismo continúa evolucionando con un enfoque en la interoperabilidad entre los datos modernos y la pila de inteligencia químico. Este enfoque destapado permite a las organizaciones adoptar las mejores soluciones para sus casos de uso de datos e inteligencia químico y, al mismo tiempo, evitar la dependencia de un proveedor. La saldo de credenciales para API abiertas es una parte esencia de nuestro completo hoja de ruta de código destapadosiguiendo el anuncio del catálogo Unity de código destapado en la Cumbre de Datos e IA de 2024. La saldo de credenciales todavía está adecuado en el emanación de código destapado Unity Catalog 0.2.
Gobernanza unificada en cualquier motor con saldo de credenciales
Desafíos de gobernanza sin saldo de credenciales
La ejecución de consultas en entornos de cúmulo dependía de políticas estáticas y de entrada amplio tanto para los metadatos como para la recuperación de datos, lo que dificultaba su escalado. Motores de consulta, como Apache Spark™tienen amplio entrada al catálogo de metadatos y dependen de políticas de entrada al almacenamiento en la cúmulo para recuperar datos del almacenamiento en la cúmulo. Por ejemplo, cuando un agraciado ejecuta una consulta, el motor necesita entrar a los metadatos del catálogo y a los datos reales del almacenamiento en la cúmulo como AWS S3, Azure ADLS y GCS. Los administradores normalmente otorgan al motor entrada completo al catálogo de metadatos (como el metastore de Hive) y crean perfiles de instancia/identidades de servicios administrados para explicar a qué ubicaciones de almacenamiento en la cúmulo puede entrar el motor según los permisos del agraciado. Estos perfiles de instancia asignan el entrada a nivel de agraciado a políticas de almacenamiento de datos específicas.

Si adecuadamente este maniquí funciona para entornos pequeños con pocos usuarios y conjuntos de datos, descompostura cuando se escalera a grandes organizaciones con miles de usuarios, diferentes herramientas/motores informáticos y cientos de miles de objetos de datos. Los administradores deben comprobar de que los permisos de catálogo y almacenamiento estén sincronizados, lo que puede resultar complicado a medida que crece el número de usuarios y activos de datos. Este enfoque petrificado se vuelve cada vez más confuso, propenso a errores y difícil de sostener, lo que genera ineficiencias, riesgos de seguridad y desafíos de gobernanza a escalera.
Gobernanza escalable con saldo de credenciales
La saldo de credenciales permite que un catálogo otorgue entrada temporal al almacenamiento para un motor que realiza el procesamiento de datos. Esto se hace a través de credenciales de almacenamiento reducidas y de tiempo establecido generadas bajo demanda. Estas credenciales están restringidas al almacenamiento específico necesario para un objeto de nivel superior, como una tabla. El catálogo gestiona tanto los metadatos como la gobernanza, lo que significa que tiene entrada permanente a todos los datos, mientras que el motor solo obtiene entrada acoplado a tiempo. Por ejemplo, si un motor necesita entrar a una tabla específica almacenada en una ruta en AWS S3, el catálogo genera una credencial limitada a esa ruta y se la proporciona al motor, permitiendo el entrada. La saldo de credenciales aprovecha los mecanismos de reducción que ofrecen los proveedores de la cúmulo, como los tokens de sesión de AWS o las credenciales SAS de delegación de Azure.
Beneficios esencia:
- Control de entrada centralizado: Permite la mandato centralizada de los permisos de entrada a datos a través del catálogo, en zona de tener que configurar controles de entrada por separado para cada fuente de datos subyacente.
- Acercamiento temporal con significación: Proporciona credenciales temporales de significación estrecho para entrar a los datos, lo que mejoría la seguridad al acotar la vida útil y los permisos de los tokens de entrada.
- Dirección de permisos simplificada: Los administradores no necesitan renovar las políticas de depósitos de almacenamiento individuales ni las funciones de IAM: los permisos se pueden llevar la batuta de forma centralizada a través del catálogo.
- Almohadilla para funciones de gobernanza avanzadas: Esto proporciona los principios básicos para implementar políticas de entrada de nivel superior. Estos podrían incluir controles de entrada básicos o políticas más avanzadas como RBAC (control de entrada basado en roles) o ABAC (control de entrada basado en atributos) que son de naturaleza dinámica.
Implemente políticas una vez en Unity Catalog y aplíquelas en todas partes
Cómo la saldo de credenciales permite el entrada seguro a clientes externos
Unity Catalog proporciona API REST de código destapado, lo que permite a los clientes externos entrar de forma segura a objetos como tablas. Los administradores pueden explicar políticas de entrada para estos objetos en Unity Catalog, y Unity Catalog conserva el entrada al almacenamiento permanente. Cuando un motor foráneo, como Apache Spark™, solicita entrada a una tabla a través de las API REST utilizando credenciales de UC como tokens PAT u OAuth, Unity Catalog emite credenciales y URL temporales para controlar el entrada al almacenamiento en función de los roles de IAM específicos del agraciado o de las identidades administradas. permitiendo la recuperación de datos y la ejecución de consultas. Esto simplifica la sucursal, mejoría la interoperabilidad entre motores y herramientas y sienta las bases para funciones de gobernanza avanzadas como RBAC y ABAC para medrar la mandato de entrada.

Esta capacidad todavía se extiende a las tablas Iceberg administradas en Unity Catalog a través de la interfaz Iceberg REST Catalog, aprovechando el mismo proceso de saldo de credenciales temporales para ojear las tablas Iceberg. Al mejorar la accesibilidad para una amplia viso de motores externos integrados a través de las API REST de Unity, como Apache Spark™, DuckDB, Daft, PuppyGraph, StarRocks, Spice AI, Microsoft Fabric, Salesforce Data Cloud y motores de catálogo REST Iceberg como Trino y Dremio—Las organizaciones pueden explotar las herramientas de su sufragio mientras mantienen experiencias consistentes de descubrimiento y gobernanza en todas las plataformas. Además planeamos ampliar el soporte de saldo de credenciales a otros activos de Unity Catalog, incluidos volúmenes (datos no estructurados, archivos arbitrarios). ¡Manténganse al tanto!
Véalo en obra con Apache Spark™ y Unity Catalog
Las API abiertas de Unity Catalog permiten que los clientes externos, como Apache Spark™, interactúen con el catálogo con una gobernanza unificada. Puede realizar operaciones como crear, ojear y escribir en sus tablas Delta mediante la saldo de credenciales temporales. Ya no necesita confirmar y llevar la batuta los permisos de IAM para sus cargas de trabajo y mantenerlas sincronizadas en diferentes sistemas.
El posterior ejemplo demuestra cómo configurar su sesión de Spark para conectarse a Unity Catalog en Databricks para entrar a las tablas almacenadas en AWS S3.
El entrada a la recitación de tablas se rige por los privilegios de Catálogo/Esquema/Tabla. Los usuarios requieren USE CATALOG, USE SCHEMA, EXTERNAL USE SCHEMA, SELECT
privilegios para ojear una tabla.
Para crear una tabla, los usuarios requieren CREATE EXTERNAL TABLE
en la ubicación de almacenamiento foráneo, así como los privilegios del catálogo USE CATALOG, USE SCHEMA and EXTERNAL USE SCHEMA
.
De modo similar, consulta sus tablas UniForm Iceberg desde el catálogo de Unity a través de la API REST de Iceberg. ¡Esto le permite entrar a estas tablas desde cualquier cliente que admita Iceberg REST sin introducir nuevas dependencias!
Próximos pasos
Este es solo el manifestación de nuestra hoja de ruta continua para dedicar entrada destapado y gobernanza unificada para cualquier reseña o activo de IA, en cualquier formato, en cualquier carga de trabajo y compatible con cualquier motor o útil informática. La saldo de credenciales es un componente poderoso para la gobernanza y busque más actualizaciones para consentir el entrada foráneo seguro a volúmenes (datos no estructurados, archivos arbitrarios).
- Para obtener más información sobre la saldo de credenciales en Unity Catalog y los requisitos, consulte la documentación para AWS, Azur, PCG.
- Para comenzar con Unity Catalog, explore las guías de configuración disponibles para AWS, Azury PCG.
- Además puedes ojear sobre el emanación de código destapado 0.2 de Unity Catalog para más detalles