Del caos a la escalera: creación de plantillas de canalizaciones declarativas de Spark con DLT-META

Los canales declarativos brindan a los equipos una forma basada en la intención de crear flujos de trabajo por lotes y de transmisión. Usted define lo que debe suceder y deja que el sistema administre la ejecución. Esto reduce el código personalizado y admite patrones de ingeniería repetibles.

A medida que crece el uso de datos de las organizaciones, las canalizaciones se multiplican. Los estándares evolucionan, se agregan nuevas fuentes y más equipos participan en el avance. Incluso las pequeñas actualizaciones de esquemas se extienden a docenas de portátiles y configuraciones. La metaprogramación basada en metadatos aborda estos problemas cambiando la deducción de canalización a plantillas estructuradas que se generan en tiempo de ejecución.

Este enfoque mantiene el avance consistente, reduce el mantenimiento y escalera con un esfuerzo de ingeniería establecido.

En este blog, aprenderá cómo crear canalizaciones basadas en metadatos para Spark Declarative Pipelines mediante DLT-META, un tesina de Databricks Labs, que aplica plantillas de metadatos para automatizar la creación de canalizaciones.

Por muy enseres que sean los canalizaciones declarativas, el trabajo necesario para respaldarlos aumenta rápidamente cuando los equipos agregan más fuentes y amplían su uso en toda la estructura.

Por qué las canalizaciones manuales son difíciles de perseverar a escalera

Las canalizaciones manuales funcionan a pequeña escalera, pero el esfuerzo de mantenimiento crece más rápido que los datos mismos. Cada nueva fuente añade complejidad, lo que lleva a desvíos y reelaboraciones de la deducción. Los equipos terminan parcheando los canales en espacio de mejorarlos. Los ingenieros de datos enfrentan constantemente estos desafíos de escalera:

Demasiados artefactos por fuente: Cada conjunto de datos requiere nuevos cuadernos, configuraciones y scripts. Los gastos operativos aumentan rápidamente con cada feed incorporado.
Las actualizaciones lógicas no se propagan: Los cambios en las reglas comerciales no se aplican a las canalizaciones, lo que genera cambios en la configuración y resultados inconsistentes entre las canalizaciones.
Calidad y gobernanza inconsistentes: Los equipos crean controles y linajes personalizados, lo que dificulta la aplicación de estándares en toda la estructura y los resultados son muy variables.
Contribución segura limitada de los equipos de dominio: Los analistas y equipos comerciales quieren asociar datos; sin confiscación, la ingeniería de datos aún revisa o reescribe la deducción, lo que ralentiza la entrega.
El mantenimiento se multiplica con cada cambio: Los ajustes o actualizaciones simples del esquema crean una enorme acumulación de trabajo manual en todos los canales dependientes, lo que detiene la agilidad de la plataforma.

Estos problemas muestran por qué es importante un enfoque que dé prioridad a los metadatos. Reduce el esfuerzo manual y mantiene las canalizaciones consistentes a medida que escalan.

Cómo DLT-META aborda la escalera y la coherencia

DLT-META resuelve problemas de consistencia y escalera de canalización. Es un ámbito de metaprogramación basado en metadatos para Spark Declarative Pipelines. Los equipos de datos lo utilizan para automatizar la creación de canales, estandarizar la deducción y subir el avance con un código insignificante.

Con la metaprogramación, el comportamiento de la canalización se deriva de la configuración, en espacio de cuadernos repetidos. Esto brinda a los equipos beneficios claros.

Menos código para escribir y perseverar
Incorporación más rápida de nuevas fuentes de datos
Tuberías listas para producción desde el principio
Patrones consistentes en toda la plataforma
Mejores prácticas escalables con equipos lean

Spark Declarative Pipelines y DLT-META trabajan juntos. Spark Declarative Pipelines define la intención y gestiona la ejecución. DLT-META agrega una capa de configuración que genera y escalera la deducción de canalización. Combinados, reemplazan la codificación manual con patrones repetibles que respaldan la gobernanza, la eficiencia y el crecimiento a escalera.

Cómo DLT-META aborda las deposición reales de ingeniería de datos

1. Configuración centralizada y basada en plantillas

DLT-META centraliza la deducción de canalización en plantillas compartidas para eliminar la duplicación y el mantenimiento manual. Los equipos definen reglas de ingesta, transformación, calidad y gobernanza en metadatos compartidos mediante JSON o YAML. Cuando se agrega una nueva fuente o cambia una regla, los equipos actualizan la configuración una vez. La deducción se propaga automáticamente a través de las tuberías.

2. Escalabilidad instantánea e incorporación más rápida

Las actualizaciones basadas en metadatos facilitan la ampliación de los canales y la incorporación de nuevas fuentes. Los equipos agregan fuentes o ajustan las reglas comerciales editando archivos de metadatos. Los cambios se aplican a todas las cargas de trabajo posteriores sin intervención manual. Las nuevas fuentes pasan a producción en minutos en espacio de semanas.

3. Contribución del equipo de dominio con estándares aplicados

DLT-META permite a los equipos de dominio contribuir de forma segura a través de la configuración. Los analistas y expertos en el dominio actualizan los metadatos para acelerar la entrega. Los equipos de plataforma e ingeniería mantienen el control sobre la acometividad, la calidad de los datos, las transformaciones y las reglas de cumplimiento.

4. Coherencia y gobernanza en toda la empresa

Los estándares de toda la estructura se aplican automáticamente en todos los canales y consumidores. La configuración central aplica una deducción coherente para cada nueva fuente. Las reglas integradas de auditoría, categoría y calidad de datos respaldan los requisitos regulatorios y operativos a escalera.

Cómo los equipos utilizan DLT-META en la experiencia

Los clientes utilizan DLT-META para fijar la ingesta y las transformaciones una vez y aplicarlas mediante la configuración. Esto reduce el código personalizado y acelera la incorporación.

Cineplex vio un impacto inmediato.

PsiQuantum muestra cómo los equipos pequeños escalan de modo apto.

En todas las industrias, los equipos aplican el mismo patrón.

Minorista centraliza los datos de la tienda y la esclavitud de suministro de cientos de fuentes
Abastecimiento estandariza la ingesta por lotes y streaming para IoT y datos de flotas
Servicios financieros aplica la auditoría y el cumplimiento mientras la incorporación de feeds es más rápida
Cuidado de la lozanía mantiene la calidad y la auditabilidad en conjuntos de datos complejos
Manufactura y telecomunicaciones subir la ingesta utilizando metadatos reutilizables y gobernados centralmente

Este enfoque permite a los equipos aumentar el número de canales sin aumentar la complejidad.

Cómo comenzar con DLT-META en 5 sencillos pasos

No necesita rediseñar su plataforma para probar DLT-META. Comienzo poco a poco. Utilice algunas fuentes. Deje que los metadatos impulsen el resto.

1. Obtén el ámbito

Comience clonando el repositorio DLT-META. Esto le brinda las plantillas, ejemplos y herramientas necesarias para fijar canalizaciones utilizando metadatos.

2. Defina sus canalizaciones con metadatos

A continuación, defina qué deben hacer sus canalizaciones. Para ello, edite un pequeño conjunto de archivos de configuración.

Usar conf/incorporación.json para describir tablas de entrada sin formato.
Usar conf/silver_transformations.json para fijar transformaciones.
Opcionalmente, agregue conf/dq_rules.json si desea hacer cumplir las reglas de calidad de los datos.

En este punto, estás describiendo la intención. No estás escribiendo código de canalización.

3. Incorporar metadatos en la plataforma.

Antiguamente de que se puedan ejecutar las canalizaciones, DLT-META debe registrar sus metadatos. Este paso de incorporación convierte sus configuraciones en tablas delta de especificaciones de flujo de datos que las canalizaciones leen en tiempo de ejecución.

Puede ejecutar la incorporación desde una computadora portátil, un trabajo de Lakeflow o la CLI DLT-META.

a. Incorporación manual a través de una computadora portátil, por ejemplo aquí

Utilice el cuaderno de incorporación proporcionado para procesar sus metadatos y aprovisionar los artefactos de su canalización:

b. Automatice la incorporación a través de Lakeflow Jobs con una rueda de Python.

El subsiguiente ejemplo muestra la interfaz de adjudicatario de Lakeflow Jobs para crear y automatizar una canalización DLT-META.

do. Incorporación mediante los comandos DLT-META CLI que se muestran en el repositorio: aquí.

La CLI DLT-META le permite ejecutarla integrada e implementarla en una terminal Python interactiva

4. Cree una canalización genérica

Con los metadatos implementados, se crea una única canalización genérica. Esta canalización lee las tablas de Dataflowspec y genera deducción dinámicamente.

Usar tuberías/dlt_meta_pipeline.py como punto de entrada y configúrelo para que haga remisión a sus especificaciones de bronce y plata.

Esta canalización permanece sin cambios a medida que agrega fuentes. Los metadatos controlan el comportamiento.

5. Disparar y ejecutar

Ahora está despierto para ejecutar la canalización. Actívelo como cualquier otro canal declarativo de Spark.

DLT-META crea y ejecuta la deducción de canalización en tiempo de ejecución.

El resultado son mesas de bronce y plata listas para producción con transformaciones consistentes, reglas de calidad y categoría aplicados automáticamente.

Ejemplo de canalización declarativa de Spark, lanzado utilizando DLT-META — Ejemplo de canalización declarativa de Spark, resuelto utilizando DLT-META

Pruébalo hoy

Para comenzar, recomendamos iniciar una prueba de concepto utilizando sus Spark Declarative Pipelines existentes con un puñado de fuentes, portar la deducción de la canalización a metadatos y dejar que DLT-META se orqueste a escalera. Comience con una pequeña prueba de concepto y observe cómo la metaprogramación basada en metadatos amplía sus capacidades de ingeniería de datos más allá de lo que creía posible.

Posibles de ladrillos de datos

Etiquetado canalizaciones, caos, con, creación, declarativas, del, DLTMETA, escala, plantillas, Spark