Hoy, Databricks anuncia soporte para el ANSI SQL/PSM lengua de secuencias de comandos!
SQL Scripting ahora está apto en Databricks, trayendo dialéctica de procedimiento como onda y flujo de control directamente al SQL que ya conoce. Scripting en Databricks se podio en estándares abiertos y es totalmente compatible con Apache Spark ™.
Para los usuarios de SQL-primero, esto facilita trabajar directamente en Lakehouse mientras aprovecha la escalabilidad de Databricks y las capacidades de IA.
Si ya usa Databricks, encontrará scripts SQL especialmente útil para construir tareas de dialéctica administrativa y ELT. Las características esencia incluyen:
- Variables locales alcanzadas
- Manejo de excepciones nativas basado en condiciones de error simbólico
- If-Then-else y soporte de casos
- Construcciones múltiples de onda, incluidos los bucles sobre consultas
- Control de onda con iterar y dejar
- Ejecución dinámica de SQL a través de ejecutar inmediatamente
Suficiente con la directorio de características: caminemos por algunos ejemplos reales. Puede Usa este cuaderno seguir
Dirección de datos
Las tareas administrativas y la facilidad de datos son una constante en la trámite de datos empresariales: necesarias, rutinarias e imposibles de evitar. Deberá barrer los registros históricos, estandarizar formatos mixtos, aplicar nuevas convenciones de nomenclatura, cambiar el nombre de columnas, ampliar los tipos de datos y pegar máscaras de columna. Cuanto más pueda automatizar estas tareas, más confiable y manejable serán sus sistemas con el tiempo. Un ejemplo global: hacer cumplir el comportamiento insensible al caso para todas las columnas de condena en una tabla.
Pasemos cómo las secuencias de comandos SQL pueden hacer que este tipo de despacho de esquemas sea repetible y directo.
Compañía de esquema: Haga todas las columnas de condena en una tabla Insensible
En este ejemplo, queremos aplicar una nueva política para la clasificación de cadenas y la comparación de cada columna aplicable en la tabla citación empleados. Utilizaremos un tipo de colección standard, UTF8_LCase, para respaldar que la clasificación y la comparación de los títulos en esta tabla siempre sea insensible a los casos. Aplicar este standard permite a los usuarios beneficiarse del Beneficios de rendimiento del uso de colmacionesy simplifica el código ya que los usuarios ya no tienen que aplicar Lower () en sus consultas.
Usaremos widgets para especificar qué tabla y tipo de colección alterar. Usando el esquema de información, encontraremos todas las columnas de condena de tipo existentes en esa tabla y alteraremos su colección. Recopilaremos los nombres de la columna en una matriz. Finalmente, recopilaremos nuevas estadísticas para las columnas alteradas, todas en un solo script.
Una extensión natural del libreto preparatorio es extenderlo a todas las tablas en un esquema y modernizar las vistas para reunir el cambio de colación.
Precisión de datos: corrige la gramática en los campos de texto de forma vacancia
¿Hay algún problema más global en el mundo de los datos que ‘Dirty Data’? Los datos de diferentes sistemas, dispositivos y humanos inevitablemente tendrán diferencias o errores que deben corregirse. Si los datos no se limpian, es posible que tenga resultados equivocados y se pierda una visión importante. Puede esperar una respuesta de basura si alimenta la basura en un LLM.
Veamos un ejemplo que incluye la ruina de cada publicación, incluido este blog: errores tipográficos. Tenemos una tabla que incluye entradas de texto vacancia en una columna citación descripción. Los problemas en el texto, que incluyen ortografía y errores de gramática, serían evidentes para cualquiera que conozca el inglés. Dejar los datos en este estado indudablemente conducirá a problemas más tarde si intenta analizar o inspeccionar el texto. ¡Vamos a arreglarlo con SQL Scripting! Primero, extraemos tablas que sostienen este nombre de columna del esquema de información. Luego corrige cualquier error de ortografía usando ai_fix_grammar (). Esta función no es determinista. Entonces usamos UNIR Para conseguir nuestro objetivo.
Una restablecimiento interesante podría ser dejar ai_classify () Deduzca si una columna contiene texto de forma vacancia del nombre de la columna o datos de muestra. SQL Scripting hace tareas administrativas y limpiando datos desordenados eficientes y directos.
ETL
Los clientes usan SQL para ETL hoy. ¿Por qué? Oportuno a que SQL admite un conjunto robusto de capacidades de transformación de datos, incluidas las uniones, agregaciones, filtrado, con sintaxis intuitiva, facilitando el código de la tubería para cualquier ingeniero de datos extender, modernizar y perdurar. Ahora, con SQL Scripting, los clientes pueden simplificar enfoques previamente complejos o manejar una dialéctica más compleja con SQL puro.
Modernización de varias tablas
Cualquiera que venda productos físicos tendrá un proceso para monitorear las ventas y el seguimiento de los envíos. Un patrón de trámite de datos peculiar es modelar múltiples tablas para rastrear transacciones, envíos, entregas y devoluciones. El monitoreo de la transacción es crítico para el negocio, y como cualquier proceso crítico, requiere el manejo de títulos inesperados. Con SQL Scripting, es dócil disfrutar una manifiesto de caso condicional para analizar las transacciones en su tabla apropiada, y si se encuentra un error, para detectar la excepción.
En este ejemplo, consideramos una tabla de transacciones sin procesar para la cual las filas deben enrutarse en un conjunto conocido de tablas de destino en función del tipo de evento. Si el script encuentra un evento desconocido, se plantea una excepción definida por el beneficiario. Una variable de sesión rastrea hasta qué punto el script llegó antaño de terminar o encontró una excepción.
Este script de ejemplo podría explayarse con un onda extranjero que mantiene las encuestas para más datos. Con SQL Scripting, tiene la potencia y la flexibilidad para establecer y modernizar datos en su patrimonio de datos. SQL Scripting le brinda energía para topar cualquier tarea de trámite de datos y controlar eficientemente el flujo del procesamiento de datos.
Estén atentos al blog de Databricks y el Sesiones SQL en el próximo Datos + Cumbre de AImientras nos preparamos para exhalar soporte para tablas TEMP, procedimientos almacenados SQL y más.
Que hacer a continuación
Ya sea que sea un beneficiario de Databricks existente que realice un mantenimiento de rutina o que orquestina una migración a gran escalera, SQL Scripting es una capacidad que debe explotar. SQL Scripting se describe en detalle en SQL Scripting | Documentación de Databricks.
Puedes probar estos ejemplos directamente en este Cuaderno de secuencias de comandos SQL. Para obtener más detalles, estén atentos para la Parte 2 de esta serie, que se sumerge en construcciones de secuencias de comandos SQL y cómo usarlas.