Azure Databricks es un servicio de Microsoft de primera parte, integrado de forma nativa con el ecosistema de Azure para igualar los datos y la IA con exploración de detención rendimiento y soporte de herramientas profundas. Esta estrecha integración ahora incluye una actividad gremial nativa de Databricks en Azure Data Factory (ADF), lo que hace que sea más liviana que nunca activar flujos de trabajo de Databricks directamente internamente de ADF.
Esta nueva actividad en ADF es una mejor maña inmediata, y todos los usuarios de Databricks de ADF y Azure deberían considerar moverse a este patrón.
El nuevo Trabajo de databricks La actividad es muy simple de usar:
- En su tubería ADF, deslizamiento el Trabajo de databricks Actividad en la pantalla
- En la pestaña Azure Databricks, seleccione un servicio vinculado de Databricks para autenticación en el espacio de trabajo de Azure Databricks
- Puede autenticarse usando una de estas opciones:
- una token de pat
- el sistema ADF asignado identidad administrada, o
- una identidad administrada de un sucesor asignado
- Aunque el servicio vinculado requiere que configure un clúster, este clúster es ni creado ni usado Al ejecutar esta actividad. Se conserva para compatibilidad con otros tipos de actividad
- Puede autenticarse usando una de estas opciones:
3. En la pestaña Configuración, seleccione un flujo de trabajo de Databricks para ejecutar en la tira de desplegamiento del trabajo (solo verá los trabajos a los que su principal autenticado tiene paso). En la sección de parámetros de trabajo a continuación, configure los parámetros de trabajo (si los hay) para cursar al flujo de trabajo Databricks. Para enterarse más sobre los parámetros de trabajo de Databricks, consulte el documento.
- Tenga en cuenta que los parámetros de trabajo y trabajo se pueden configurar con contenido dinámico
Eso es todo lo que hay. ADF iniciará su flujo de trabajo de Databricks y devolverá la identificación y URL de ejecución del trabajo. ADF luego encuestará para que el trabajo se complete. Lea más a continuación para enterarse por qué este nuevo patrón es un clásico instantáneo.
Comenzar los flujos de trabajo de Databricks de ADF le permite obtener más potencia de su inversión de Azure Databricks
El uso de Azure Data Factory y Azure Databricks juntos ha sido un patrón de GA desde 2018 cuando se lanzó con esto blog. Desde entonces, la integración ha sido un sujeto fundamental para los clientes de Azure que han estado siguiendo principalmente este patrón simple:
- Use ADF para aterrizar datos en el almacenamiento de Azure a través de sus más de 100 conectores utilizando un tiempo de ejecución de integración autohospedado para conexiones privadas o locas
- Orchestrate Databricks Notebooks a través de la actividad del cuaderno de Databricks nativo para implementar la transformación de datos escalable en Databricks utilizando tablas de Delta Lake en ADLS en ADL
Si aceptablemente este patrón ha sido extremadamente valioso con el tiempo, ha restringido a los clientes en los siguientes modos de operación, que les roban el valencia total de Databricks:
- Uso de All Propone Compute para ejecutar trabajos para evitar los tiempos de propagación del clúster -> Coloque con problemas de vecinos ruidosos y pagando para computar de todo el propósito de trabajos automatizados
- Esperando los lanzamientos de clúster por ejecución de cuaderno cuando se usa el compute de trabajos -> Los clústeres clásicos se giran por ejecución de cuaderno, incurriendo en el tiempo de propagación del clúster para cada uno, incluso para un DAG de cuadernos
- Cuidar grupos para achicar los tiempos de propagación del clúster de trabajo -> Las piscinas pueden ser difíciles de gobernar y a menudo pueden aceptar a acreditar las máquinas virtuales que no se están utilizando
- Uso de un patrón de permisos demasiado permisivos para la integración entre ADF y Azure Databricks -> La integración requiere Workspace Admin o el derecho a clúster Crear clúster
- No hay capacidad para usar nuevas funciones en Databricks como Databricks SQL, DLT o Serverless
Si aceptablemente este patrón es escalable y es nativo de Azure Data Factory y Azure Databricks, las herramientas y las capacidades que ofrece se han mantenido igual desde su propagación en 2018, a pesar de que Databricks ha aumentado a saltos y límites en la plataforma de inteligencia de datos líderes en el mercado en todas las nubes.
Azure Databricks va más allá de los exploración tradicionales para entregar una plataforma de inteligencia de datos unificada en Azure. Combina la edificio de Lakehouse líder en la industria con IA incorporada y gobernanza vanguardia para ayudar a los clientes a desbloquear las ideas más rápido, a beocio costo y con seguridad de categoría empresarial. Las capacidades secreto incluyen:
- OSS y estándares abiertos
- Un catálogo líder de Lakehouse a través del catálogo de Unity para afirmar datos e IA en el código, idiomas y calcular internamente y fuera de Azure Databricks
- El mejor rendimiento y rendimiento de los precios para ETL
- Capacidades incorporadas para ML y Genai tradicionales, incluidos los LLM de ajuste fino, el uso de modelos fundamentales (incluido Claude Sonnet), aplicaciones de agentes de construcción y modelos de servicio
- El mejor DW en la clase en Lakehouse con Databricks SQL
- Publicación e integración automatizada con Power BI a través de la Funcionalidad Informar a Power BI que se encuentra en un catálogo de Unity y flujos de trabajo
Con el propagación de la actividad gremial de Databricks nativo en Azure Data Factory, los clientes ahora pueden ejecutar flujos de trabajo de Databricks y ocurrir parámetros a las ejecuciones de trabajos. Este nuevo patrón no solo resuelve las restricciones resaltadas anteriormente, sino que asimismo permite el uso de las siguientes características en Databricks que fueron no Anteriormente habitable en ADF como:
- Programación de un DAG de tareas internamente de Databricks
- Uso de las integraciones de Databricks SQL
- Ejecución de tuberías DLT
- Uso de la integración DBT con un almacén SQL
- Uso de la reutilización clásica de clúster de trabajo para achicar los tiempos de propagación del clúster
- Uso de empleos sin servidor calculador
- La funcionalidad de flujo de trabajo de DataBricks standard como ejecución como, títulos de tareas, ejecuciones condicionales como IF/else y para cada tarea de AI/BI, ejecuciones de reparación, notificaciones/alertas, integración GIT, soporte de DABS, clase incorporado, colas y ejecuciones concurrentes, y mucho más …
Lo más importante, los clientes ahora pueden usar la actividad gremial de Databricks ADF para usar Informar en tareas de Power BI en Databricks Workflowsque publicará automáticamente modelos semánticos para el servicio Power BI desde los esquemas en el catálogo de Unity y activará una importación si hay tablas con modos de almacenamiento utilizando importación o dual (Instrucciones de configuración documentación). Se puede encontrar una demostración sobre tareas de potencia bi en los flujos de trabajo de Databricks aquí. Para complementar esto, consulte el Power Bi en la hoja de trucos de las mejores prácticas de Databricks – Una gurú concisa y procesable que ayuda a los equipos a configurar y optimizar sus informes para el rendimiento, el costo y la experiencia del sucesor desde el principio.
La actividad gremial de Databricks en ADF es la nueva maña mejor
Usando el Trabajo de databricks La actividad en Azure Data Factory para iniciar Databricks Workflows es la nueva integración de mejores prácticas cuando se usa las dos herramientas. Los clientes pueden comenzar inmediatamente a usar este patrón para usar todas las capacidades en la plataforma de inteligencia de datos Databricks. Para los clientes que usan ADF, utilizando el ADF Trabajo de databricks La actividad dará como resultado un valencia comercial inmediato y ahorros de costos. Los clientes con marcos ETL que están utilizando actividades de cuaderno deben portar sus marcos para usar los flujos de trabajo de Databricks y el nuevo ADF Trabajo de databricks actividad y priorizar esta iniciativa en su hoja de ruta.
Comienzo a comenzar con un Prueba gratuita de 14 días de Azure Databricks.