Athrun Data Intelligence


En nuestro blog antecedenteexploramos la metodología recomendada por nuestros equipos de servicios profesionales para ejecutar migraciones de almacén de datos complejos a Databricks. Destacamos las complejidades y desafíos que pueden surgir durante tales proyectos y enfatizamos la importancia de tomar decisiones fundamentales durante la grado de táctica de migración y diseño. Estas opciones influyen significativamente en la ejecución de la migración y la edificio de su plataforma de datos objetivo. En esta publicación, sumergimos en estas decisiones y describimos los puntos de datos esencia necesarios para tomar decisiones informadas y efectivas durante todo el proceso de migración.

Logística de migración: ETL primero o bi primero?

Una vez que haya establecido su táctica de migración y haya diseñado una edificio de datos objetivo de parada nivel, la futuro atrevimiento es determinar qué cargas de trabajo portar primero. Dos enfoques dominantes son:

  • ETL-First Migration (de regreso a frente)
  • BI-First Migration (delante)

ETL-First Migration: Construyendo la cojín

La migración ETL primero, o de regreso a exterior, comienza creando un maniquí integral de datos de Lakehouse, progresando a través de las capas de bronce, plata y oro. Este enfoque implica la configuración de la gobernanza de datos con un catálogo de Unity, ingerir datos con herramientas como Lakflow Connect y aplicar técnicas como la captura de datos de cambio (CDC) y la conversión de flujos de trabajo Legacy ETL y los procedimientos almacenados en Databricks ETL. Posteriormente de las rigurosas pruebas, los informes de BI se reemplazan y el ecosistema AI/ML se plinto en la plataforma Databricks.

Esta táctica refleja el flujo natural de los datos: producir e incorporar datos, luego transformarlo para cumplir con los requisitos de los casos de uso. Permite un despliegue sucesivo de tuberías confiables y capas optimizadas de bronce y plata, minimizando las inconsistencias y mejorando la calidad de los datos para BI. Esto es particularmente útil para diseñar nuevos modelos de datos de Lakehouse desde cero, implementar la malla de datos o rediseñar los dominios de datos.

Sin incautación, este enfoque a menudo retrasa los resultados visibles para los usuarios comerciales, cuyos presupuestos generalmente financian estas iniciativas. La última migración de BI significa que las mejoras en el rendimiento, las ideas y el apoyo a los examen predictivos y los proyectos Genai pueden no materializarse durante meses. Cambiar los requisitos comerciales durante la migración incluso puede crear postes en movimiento, afectando el impulso del tesina y la recibimiento organizacional. Los beneficios completos solo se realizan una vez que se completa toda la tubería y se construyen áreas temáticas esencia en las capas de plata y oro.

BI-First Migration: entrega de valía inmediato

La migración bi-primero o de delante con destino a a espaldas prioriza la capa de consumo. Este enfoque brinda a los usuarios entrada temprano a la nueva plataforma de datos, mostrando sus capacidades mientras migra los flujos de trabajo que pueblan la capa de consumo de guisa sucesivo, ya sea por caso de uso o dominio.

Características esencia del producto que habilitan la migración BI-primero

Dos características destacadas de la plataforma Databricks hacen que el enfoque de migración de BI-Primer haya sido muy práctico e impactante: Tratado Lakehouse y Lakeflow Connect. Estas capacidades agilizan el proceso de modernización de sistemas BI al tiempo que garantizan la agilidad, la seguridad y la escalabilidad en sus esfuerzos de migración.

  1. Tratado Lakehouse: Unify Access entre fuentes de datos en aislados
    Lakehouse Federation permite a las organizaciones lograr a la perfección y consultar los datos en múltiples almacenes de datos empresariales (EDWS) y sistemas operativos. Admite la integración con las principales plataformas de datos, incluidos Teradata, Oracle, SQL Server, Snowflake, Redshift y BigQuery.
  2. Lakflow Connect:
    Lakflow Connect revoluciona la forma en que los datos se ingieren y se sincronizan aprovechando la tecnología de captura de datos de cambio (CDC). Esta característica permite la ingestión de datos incrementales en tiempo existente en Databricks, asegurando que la plataforma siempre refleje información actualizada.

Patrones para la migración bi-primera

Al explotar la Tratado de Lakehouse y Lakflow Connect, las organizaciones pueden implementar dos patrones distintos para la migración de BI-primero:

  1. Aliar, luego portar:
    Feder rápidamente a Legacy EDWS, exponer sus tablas a través del catálogo de Unity y permitir el examen de sistemas cruzados. La ingestión incremental requirió datos en Delta Lake, realiza ETL para construir agregados de capa de oro y reúnes de informes de BI a Databricks.
  2. Replicar, luego portar:
    Use tuberías de CDC para replicar datos operativos y EDW en la capa de bronce. Transforme los datos en Delta Lake y modernice los flujos de trabajo de BI, desbloqueando datos aislados para proyectos ML y Genai.

Los dos patrones se pueden implementar el caso de uso por caso de uso en un enfoque ágil y sucesivo. Esto garantiza el valía comercial temprano, se alinea con las prioridades organizacionales y establece un plan para futuros proyectos. Legacy ETL se puede portar más tarde, transitando fuentes de datos a sus verdaderos orígenes y a los sistemas EDW heredados de retiro.

Conclusión

Estas estrategias de migración proporcionan una ruta clara para modernizar su plataforma de datos con Databricks. Al explotar herramientas como Unity Catálogo, Lakehouse Federation y Lakeflow Connect, puede alinear su edificio y táctica con los objetivos comerciales al tiempo que habilita las capacidades de examen avanzados. Ya sea que priorice la migración ETL primero o BI-primero, la esencia es ofrecer un valía incremental y prolongar el impulso a lo extenso del delirio de transformación.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *