Paso a las mesas de iceberg de Amazon S3 desde Databricks utilizando el catálogo de REST de iceberg de Glue AWS en Amazon Sagemaker Lakehouse

Amazon Sagemaker Lakehouse Permite una plataforma Lakehouse unificada, abierta y segura en sus lagos y almacenes de datos existentes. Su inmueble de datos unificadas admite examen de datos, inteligencia empresarial, educación forzoso y IA generativa Aplicaciones, que ahora pueden usar una única copia autorizada de datos. Con Sagemaker Lakehouse, obtienes lo mejor de entreambos mundos: la flexibilidad para usar rentable Amazon Simple Storage Service (Amazon S3) Almacenamiento con el cálculo escalable de un lagunajo de datos, adyacente con el rendimiento, la confiabilidad y las capacidades SQL típicamente asociadas con un almacén de datos.

Sagemaker Lakehouse permite a la interoperabilidad al proporcionar Apacy Oceberg REST API de código destapado para alcanzar a los datos en Lakehouse. Los clientes ahora pueden usar su referéndum de herramientas y una amplia variedad de servicios de AWS, como Amazon Redshift, Amazon EMR, Amazon Athena y Amazon Sagemakerencima de los motores de examen de terceros que son compatibles con las especificaciones de alivio de Apache Iceberg para consultar sus datos en el sitio.

Finalmente, Sagemaker Lakehouse ahora proporciona controles de ataque seguros y de roncha fino en los datos tanto en los almacenes de datos como en los lagos de datos. Con controles de permiso de capital de Formación del lagunajo AWS integrado en el Catálogo de datos de pegamento AWSSagemaker Lakehouse permite a los clientes constreñir y compartir de forma segura el ataque a una única copia autorizada de datos en toda su ordenamiento.

Las organizaciones que administran cargas de trabajo en AWS Analytics y Databricks ahora pueden utilizar esta capacidad abierta y segura de Lakehouse para equiparar la compañía de políticas y la supervisión de su lagunajo de datos en Amazon S3. En esta publicación, le mostraremos cómo Databricks en AWS Universal Propósito Compute puede integrarse con el AWS Glue Catálogo de REST de iceberg para ataque a metadatos y use la formación del lagunajo para el ataque a los datos. Para apoyar la configuración en esta publicación directa, el Catálogo REST de Glue Iceberg y el clúster de Databricks comparten la misma cuenta de AWS.

Descripción normal de la alternativa

En esta publicación, mostramos cómo las tablas catalogadas en el catálogo de datos y almacenadas en Amazon S3 se pueden consumir de Databricks Compute utilizando un catálogo de alivio de iceberg de pegamento con ataque a datos asegurado utilizando la formación del lagunajo. Le mostraremos cómo se puede configurar el clúster para interactuar con el catálogo de reposo de Glue Iceberg, usar un cuaderno para alcanzar a los datos utilizando las credenciales vendidas temporales de la formación del lagunajo y Run Analysis para obtener ideas.

La ulterior figura muestra la inmueble descrita en el párrafo precedente.

Requisitos previos

Para seguir adyacente con la alternativa presentada en esta publicación, necesita los siguientes requisitos previos de AWS:

Paso al Administrador del lagunajo de datos de la Formación Lake en su cuenta AWS. Un Administrador de lagunajo de datos de Formación Lake es un director de IAM que puede registrar ubicaciones de Amazon S3, alcanzar al catálogo de datos, Grant los permisos de formación de lagunajo a otros usuarios y ver AWS CloudTrail Ver Crear un administrador de Data Lake Para más información.
Habilite el ataque completo a la tabla para motores externos para alcanzar a los datos en la formación del lagunajo.
- Inicie sesión en Lake Formation Console como administrador de IAM y elija Compañía En el panel de navegación.
- Nominar Configuración de integración de aplicaciones y pretender Permitir que los motores externos accedan a los datos en las ubicaciones de Amazon S3 con ataque completo a la tabla.
- Nominar Librarse.
Una colchoneta de datos y tablas de Glue de AWS existentes. Para esta publicación, utilizaremos una colchoneta de datos de pegamento AWS convocatoria icebergdemodbque contiene una tabla de iceberg con nombre de persona y los datos se almacenan en un cubo de propósito normal S3 llamado icebergdemodatalake.
Un rol de IAM definido por el afortunado que la formación del lagunajo asume al alcanzar a los datos en la ubicación S3 precedente para entregar credenciales con trascendencia. Siga las instrucciones proporcionadas en Requisitos para roles utilizados para registrar ubicaciones. Para esta publicación, utilizaremos el rol de IAM LakeFormationRegistrationRole.

Adicionalmente de los requisitos previos de AWS, necesita ataque al espacio de trabajo de Databricks (en AWS) y la capacidad de crear un clúster con No se compartió aislamiento Modo de ataque.

Configure un rol de perfil de instancia. Para obtener instrucciones sobre cómo crear y configurar el rol, ver Regir perfiles de instancia en Databricks. Crear política administrada por el cliente nombrada: dataplane-glue-lf-policy con políticas a continuación y adjunte lo mismo al rol de perfil de instancia:

{
    "Version": "2012-10-17",
    "Statement": (
        {
            "Effect": "Allow",
               "Action": (
                "glue:UpdateTable",
                "glue:GetDatabase",
                "glue:GetDatabases",
                "glue:GetCatalog",
                "glue:GetCatalogs",
                "glue:GetPartitions",
                "glue:GetPartition",
                "glue:GetTable",
                "glue:GetTables"
            ),
            "Resource": (
                "arn:aws:glue:::table/icebergdemodb/*",
                "arn:aws:glue:::database/icebergdemodb",
                "arn:aws:glue:::catalog"
            )
        },
        {
            "Effect": "Allow",
            "Action": (
                "lakeformation:GetDataAccess"
            ),
            "Resource": "*"
        }
    )
}

Para esta publicación, utilizaremos un rol de perfil de instancia (databricks-dataplane-instance-profile-role), que se adjuntará al clúster creado anteriormente.

Registre la ubicación de Amazon S3 como la ubicación del lagunajo de datos

Registro de una ubicación de Amazon S3 con Lake Formation proporciona un papel de IAM con permisos de leída/escritura a la ubicación S3. En este caso, debe registrar el icebergdemodatalake Ubicación del cubo utilizando el LakeFormationRegistrationRole IAM papel.

Luego de registrar la ubicación, la formación del lagunajo asume el LakeFormationRegistrationRole Papel cuando otorga credenciales temporales a los motores integrados de Servicios de AWS/Analítica de terceros que son compatibles (Prerrequisito Paso 2) que acceden a los datos en esa ubicación del cubo S3.

Para registrar la ubicación de Amazon S3 como la ubicación del lagunajo de datos, complete los siguientes pasos:

Inicie sesión en la consola de dirección de AWS para la formación de lagunajo como administrador de Data Lake.
En el panel de navegación, elija Ubicaciones del lagunajo de datos bajo Compañía.
Nominar Ubicación de registro.
Para Ruta de Amazon S3ingresar s3://icebergdemodatalake.
Para Papel de iampretender LakeFormationRegistrationrole.
Para Modo de permisopretender Formación del lagunajo.
Nominar Ubicación de registro.

Subvencionar la colchoneta de datos y los permisos de tabla para el rol de IAM utilizado en Databricks

Grant Describa el permiso en el icebergdemodb colchoneta de datos al rol de instancia de IAM de Databricks IAM.

Inicie sesión en la consola de formación del lagunajo como administrador del lagunajo de datos.
En el panel de navegación, elija Permisos del lagunajo de datos y designar Conceder.
En el Principios Sección, seleccione Usuarios y roles de IAM y designar databricks-dataplane-instance-perfil-rol.
En el LF-Tags o capital de catálogo Sección, seleccione Medios de catálogo de datos con nombre. Nominar para catálogos y icebergdemodb para Bases de datos.
Elegir DESCRIBIR para Permisos de colchoneta de datos.
Nominar Conceder.

Otorgue pretender y describir permisos en la tabla de personas en el icebergdemodb colchoneta de datos al rol de instancia de IAM de Databricks IAM.

En el panel de navegación, elija Permisos del lagunajo de datos y designar Conceder.
En el Principios Sección, seleccione Usuarios y roles de IAM y designar databricks-dataplane-instance-perfil-rol.
En el LF-Tags o capital de catálogo Sección, seleccione Medios de catálogo de datos con nombre. Nominar para catálogos, icebergdemodb para Bases de datos y persona para mesa.
Elegir SÚPER para Permisos de mesa.
Nominar Conceder.

Otorgar permisos de ubicación de datos en el balde para el rol de instancia de Databricks IAM.

En el panel de navegación de la consola de la formación del lagunajo, elija Ubicación de datosy luego designar Conceder.
Para Usuarios y roles de IAMdesignar databricks-dataplane-instance-perfil-rol.
Para Ubicación de almacenamientoseleccione el s3: // icebergdemodatalake.
Nominar Conceder.

Espacio de trabajo de Databricks

Cree un clúster y configúrelo para conectarse con un punto final del catálogo de REST de iceberg de pegamento. Para esta publicación, utilizaremos un clúster de Databricks con Runtime Interpretación 15.4 LTS (incluye Apache Spark 3.5.0, Scala 2.12).

En la consola de Databricks, elija Calcular En el panel de navegación.
Cree un clúster con Runtime Interpretación 15.4 LTS, modo de ataque como ‘No se compartió aislamiento‘Y elige databricks-dataplane-instance-profile-role Como rol de perfil de instancia en Configuración sección.

Expandir el Opciones avanzadas sección. En el Chispa sección, para Configuración de chispa Incluya los siguientes detalles:

spark.sql.extensions org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions 
spark.sql.catalog.spark_catalog org.apache.iceberg.spark.SparkCatalog
spark.sql.catalog.spark_catalog.type rest 
spark.sql.catalog.spark_catalog.uri https://glue..amazonaws.com/iceberg
spark.sql.catalog.spark_catalog.warehouse  
spark.sql.catalog.spark_catalog.rest.sigv4-enabled true 
spark.sql.catalog.spark_catalog.rest.signing-name glue 
spark.sql.defaultCatalog spark_catalog

En el Congregación sección, para Bibliotecas Incluya los siguientes frascos:
1. org.apache.iceberg-spark-runtime-3.5_2.12:1.6.1
2. software.amazon.awssdk:bundle:2.29.5

Cree un cuaderno para analizar datos administrados en el catálogo de datos:

En el navegador de espacio de trabajo, cree un nuevo cuaderno y adjunte al clúster creado anteriormente.
Ejecute los siguientes comandos en la celda del cuaderno para consultar los datos.
```
#Show Databases
df= spark.sql(“show databases”)
display (df)
```
Modifique aún más los datos en el lagunajo de datos S3 utilizando el Catálogo de alivio de AWS Glue Iceberg.

Esto muestra que ahora puede analizar datos en un clúster de Databricks utilizando un punto final de catálogo de REST de iceberg AWS con formación de lagunajo que administra el ataque a los datos.

Eliminar

Para afanar los capital utilizados en esta publicación y evitar posibles cargos:

Elimine el clúster creado en Databricks.
Elimine los roles IAM creados para esta publicación.
Elimine los capital creados en el catálogo de datos.
Vacíe y luego elimine el cubo S3.

Conclusión

En esta publicación, le hemos mostrado cómo ordenar un conjunto de datos centralmente en el catálogo de datos de pegamento de AWS y hacer que sea accesible para la computa de databricks utilizando la API del catálogo de REST de Iceberg. La alternativa incluso le permite usar Databricks para usar mecanismos de control de ataque existentes con la formación de lagunajo, que se utiliza para ordenar el ataque de metadatos y habilitar el ataque subyacente de almacenamiento de Amazon S3 utilizando la traspaso de credenciales.

Pruebe la función y comparta sus comentarios en los comentarios.

Sobre los autores

Srividya Parthasarathy es un arquitecto senior de Big Data en el equipo de formación de AWS Lake. Trabaja con el equipo de productos y los clientes para crear características y soluciones sólidas para su plataforma de datos analíticos. Le gusta construir soluciones de malla de datos y compartirlas con la comunidad.

Venkatavaradhan (Venkat) Viswanathan es un arquitecto de soluciones de socios globales en Amazon Web Services. Venkat es un líder de organización de tecnología en datos, IA, ML, IA generativa y examen avanzados. Venkat es una PYME completo para Databricks y ayuda a los clientes de AWS a diseñar, construir, sostener y optimizar las cargas de trabajo de Databricks en AWS.

Pratik Das es un administrador de producto senior con la formación de AWS Lake. Le apasiona todo lo relacionado con los datos y trabaja con los clientes para comprender sus requisitos y crear experiencias encantadoras. Tiene experiencia en la creación de soluciones basadas en datos y sistemas de educación forzoso.

Etiquetado acceso, Amazon, AWS, catálogo, Databricks, desde, Glue, Iceberg, Lakehouse, las, mesas, REST, SageMaker, utilizando