Athrun Data Intelligence


El nuevo comando SET MANAGED proporciona un mecanismo valentísimo para convertir CU externa mesas para UC ventilado tablas mientras minimiza el tiempo de inactividad, maneja escrituras simultáneas, mantiene las configuraciones de las tablas y, cuando sea posible, preserva el historial de las tablas. Este artículo comparte las mejores prácticas y proporciona una recorrido paso a paso para usar este comando generalmente arreglado (GA):

¿Por qué convertir a tablas administradas por UC?

Con Unity Catalog como fuente de verdad, las tablas administradas desbloquean capacidades únicas que mejoran el rendimiento, gobernanciay facilidad de uso, sin someterse de ningún proveedor.

Las ventajas esencia incluyen:

  • Optimizaciones automáticas que pueden aumentar el rendimiento de las consultas hasta 20 veces y achicar los costos de almacenamiento en un 50 % o más (más detalles aquí).
  • Papeleo de datos optimizada con higiene cibernética de datos eliminados para guardar costos, así como soporte para recuperación
  • Gobernanza mejorada con pelaje de datos, controles de acercamiento detallados y acercamiento a tablas más seguro con supervisión de Unity Catalog en todas las lecturas y escrituras
  • A pulvínulo para capacidades futuras como la exterminio cibernética de filas (Coche-TTL) y ingesta a nivel de fila Ingesta de Zerobus, en Olfato previa privada).

Las tablas convertidas admiten lecturas desde cualquier cliente de terceros (consulte aquí para más detalles).

¿Cómo puede ayudar el comando de conversión SET MANAGED?

El comando SET MANAGED facilita la conversión de tablas externas a tablas administradas

Característica

Beneficio del comando SET MANAGED

Minimizar el tiempo de inactividad

Mantenga la tabla en linde y arreglado para lecturas con Databricks Runtime 16.1 o superior, y minimice desliz del tiempo a solo unos minutos para escrituras (o para lecturas en Databricks Runtime 15.4 o inferior).

Preservar la identidad

Se conservan el nombre de la tabla, los permisos, las etiquetas y la configuración de todas las tablas, así como el historial de la tabla (para las tablas Delta).

Manejar la concurrencia

El comando SET MANAGED maneja de forma segura las escrituras simultáneas que pueden ocurrir durante la conversión.

Retroceder

Otro comando llamado UNSET MANAGED permite revertir una tabla convertida a UC externa en un plazo de 14 días, como red de seguridad.

¿Cómo convierto de tablas externas a tablas administradas?

Una recorrido paso a paso para profesionales para la conversión

El comando SET MANAGED simplifica la conversión de tablas. En una recorrido paso a paso, describimos consejos esencia para avalar una transición fluida de tablas externas a tablas administradas.

Paso 1: seleccione tablas externas para convertir

Comience seleccionando un par de Unity Catalog externos mesas para convertir a UC administrado primero, para familiarizar a su equipo con el proceso, los requisitos previos y los pasos posteriores a la conversión.

Por ejemplo, puede probar este comando primero en un par de tablas que los clientes de Databricks leen y escriben exclusivamente (consulte planeando un alucinación por etapas).

Paso 2: Relación de demostración previa al revoloteo

Comprueba que tu ecosistema de lectores y redactores de tablas sea dinámico para el cambio. Para cada tabla externa de UC seleccionada y sus cargas de trabajo asociadas, querrá:

  1. Modernización para utilizar el acercamiento basado en nombres: Verifique sus trabajos, cuadernos y consultas para comprobar de que accedan a la tabla usando su nombre de tres partes (catalog.schema.table) en ocupación de usar el acercamiento basado en ruta (por ejemplo, SELECT * FROM delta.’s3://path/to/table’). Laboratorios de ladrillos de datos ha desarrollado herramientas UCX que puede ayudarlo a encontrar referencias basadas en rutas ejecutando el ulterior código lugar de pelusa UCX de Databricks Labs desde una terminal IDE, para analizar el código de directorio de su máquina lugar (archivos .py o .sql).
  2. Abolir todos los trabajos de mantenimiento: Para evitar conflictos, asegúrese de que no se estén ejecutando o programados trabajos OPTIMIZE, ZORDER o CLUSTER BY en la tabla durante el proceso de conversión, si existen (puede comprobarlo usando DESCRIBE HISTORY). Luego de la conversión, la optimización predictiva se encargará automáticamente de los trabajos de optimización.
  3. (Opcional) Refrescar las versiones de Databricks Runtime: Lo ideal es que todos los clústeres de Databricks que lean o escriban en la tabla estén en Databricks Runtime 15.4 LTS o superior para conservar el historial completo de las tablas Delta. Databricks Runtime 16.1 o superior puede eliminar por completo el tiempo de inactividad del leyente.

Paso 3: ejecute el comando de conversión

Ejecute la conversión usando el ulterior comando de conversión:

Nota: Para tablas con UniForm facultado, use SET MANAGED TRUNCATE UNIFORM HISTORY.

Paso 4: demostrar el resultado

Una vez que se complete el comando, confirme que la conversión se realizó correctamente verificando los metadatos de la tabla.

En el resultado de este comando, la propiedad «Tipo» ahora debería mostrarse como «GESTIONADO». Todavía puede ver esta misma información en la sección ‘Acerca de esta tabla’ del Explorador de catálogos.

Paso 5: Desenvoltura posterior a la conversión

Luego de una conversión exitosa, complete estos pasos finales para avalar una transición sin problemas:

  • Reinicie la transmisión de trabajos de recitación o escritura que utilicen la tabla, si alguno se ha detenido
  • Realice pruebas funcionales ejecutando consultas esencia para avalar que todos los lectores y escritores funcionen como se paciencia en la tabla recién administrada.
  • Confirme que la optimización predictiva está ahora facultado para la mesa para comenzar a beneficiarse del mantenimiento automatizado (incluso puede habilitar CLUSTER por AUTOpara la agrupación cibernética de líquidos, o controlar si ha sido facultado).

Planificación de un alucinación por etapas

Una conversión exitosa de todas las tablas a administradas por UC es un alucinación: adoptar un enfoque escalonado y planificar con anticipación puede ayudar a avalar una transición sin problemas:

  1. Convertir tablas exclusivas de Databricks: Priorice la conversión de tablas que los clientes de Databricks leen y escriben exclusivamente. Una útil práctico Entrada a informaciónse puede utilizar para ayudar a identificar tablas que solo contengan «lectores y escritores de Databricks» frente a «lectores que no sean de Databricks» o «escritores que no sean de Databricks».
  2. Convierta tablas con herramientas externas compatibles: Determinar a qué tablas acceden herramientas de terceros que incluso soporte nativo para lecturas desde tablas administradas por UC y conviértalas a continuación. El acercamiento de terceros seguirá funcionando posteriormente de la conversión.
  3. Topar los casos complejos al final: Para tablas a las que se accede con herramientas heredadas no compatibles, planee utilizar soluciones como Modo de compatibilidad para lecturas. Cuando se requieran escrituras de terceros, vuelva a crear estas tablas y habilite las escrituras en estas tablas administradas por UC en Olfato previa.

Consideraciones adicionales

Puede resultar útil conocer de antemano los siguientes detalles sobre el comando de conversión:

  • Conclusión de tiempo de reversión: Para utilizar la red de seguridad de reversión, UNSET MANAGED debe ejecutarse en la tabla administrada por UC interiormente de 14 dias de conversión: posteriormente de eso, los datos externos originales se eliminarán permanentemente para guardar en costos de almacenamiento.
  • Matices del alucinación en el tiempo: Puede resultar útil desempolvar los clientes a 15,4 LTS o superior. Para los clústeres que se ejecutan en Databricks Runtime 14.3 LTS o versiones anteriores o si usa el comando UNSET MANAGED para revertir, solo puede desplazarse en el tiempo a confirmaciones históricas por número de lectura posteriormente de la conversión, no por marca de tiempo.
  • Tiempo de inactividad minimizado para los escritores: El comando está diseñado para minimizar el tiempo de inactividad: los escritores pueden sufrir una breve interrupción (estimada entre 1 y 5 minutos) durante la etapa final cuando la ubicación de la tabla se cambia a la nueva ubicación administrada.
  • Interrupción temporal del intercambio delta: Delta Sharing se interrumpirá temporalmente durante la conversión, pero volverá a funcionar correctamente una vez que se complete el proceso.

Consejo profesional: ampliación con conversión masiva

Para convertir cientos o miles de tablas externas de Unity Catalog de forma masiva interiormente de un esquema determinado, puede utilizar el ulterior script SQL simple.

Nota: Este script realiza modificaciones en vivo. Se recomienda insistentemente probarlo exhaustivamente en un entorno de crecimiento ayer de ejecutarlo en producción.

Controlar la ubicación física de sus datos

Tablas administradas del Catálogo unificado (UC) residen en un almacenamiento administrado por el cliente y son accesibles a través de API de catálogo hendido. Si desea tener más control sobre cómo se almacenan físicamente sus datos, puede puntualizar una ubicación de almacenamiento administrada a nivel de catálogo o esquema: cualquier nueva tabla administrada creada en ese catálogo o esquema se organizará automáticamente en esa ubicación especificada.

Para tablas externas preexistentes, puede configurar una ubicación de almacenamiento administrada y luego usar el comando SET MANAGED para convertirlas en tablas administradas por UC. Durante la conversión, el sistema respeta la ubicación administrada que haya definido, lo que le brinda control sobre el diseño físico de sus datos en el almacenamiento en la cúmulo. Comuníquese con su equipo de cuentas para lograr a esta función en Olfato previa privada hoy.

Conversión de tablas externas a administradas hoy

En tan solo unos pocos meses desde la Olfato previa pública, cientos de clientes han convertido con éxito miles de tablas con SET MANAGED.

Todo lo que se describe aquí ahora es GA: pruébelo hoy y descubra el rendimiento, la gobernanza y la simplicidad de Unity Catalog Managed Tables.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *