Athrun Data Intelligence


Nos complace anunciar la apariencia previa pública de la agrupación de líquidos automáticos, alimentado por Optimización predictiva. Esta característica se aplica automáticamente y actualiza las columnas de agrupación de líquidos en Catálogo de la mecanismo mesas administradas, Mejorar el rendimiento de la consulta y ceñir los costos.

La agrupación cibernética de líquidos simplifica la trámite de datos al eliminar la menester de ajuste manual. Anteriormente, los equipos de datos tenían que diseñar manualmente el diseño de datos específico para cada una de sus tablas. Ahora, la optimización predictiva aprovecha el poder del catálogo de la mecanismo para monitorear y analizar sus datos y patrones de consulta.

A Habilitar la agrupación cibernética de líquidosconfigure sus tablas de claro o claro administradas por UC al configurar el parámetro CLUSTER BY AUTO.

Una vez autorizado, la optimización predictiva analiza cómo se consultan sus tablas y Selecciona de modo inteligente las teclas de agrupación más efectivas Basado en su carga de trabajo. Luego agrupa la tabla automáticamente, asegurando que los datos se organicen para un rendimiento de consulta espléndido. Cualquier leída de motor de la tabla delta se beneficia de estas mejoras, lo que lleva a consultas significativamente más rápidas. Adicionalmente, a medida que cambian los patrones de consulta, la optimización predictiva ajusta dinámicamente el esquema de agrupación, eliminando completamente la menester de decisiones manuales de ajuste o diseño de datos Al configurar sus tablas delta.

Durante la apariencia previa privada, docenas de clientes probaron la agrupación cibernética de líquidos y vieron fuertes resultados. Muchos aprecio su simplicidad y ganancias de rendimientocon algunos que ya lo usan para sus tablas de oro y planean expandirlo en todas las tablas delta.

Panorámica previa Los clientes como HealthRise han informado Alivio significativa del rendimiento de la consulta Con agrupación cibernética de líquidos:

“Hemos implementado la agrupación cibernética de líquidos en todas nuestras tablas de oro. Desde entonces, nuestras consultas corrieron hasta 10 veces más rápido. Todas nuestras cargas de trabajo se han vuelto mucho más eficientes sin ningún trabajo manual necesario para diseñar el diseño de datos o en ejecución del mantenimiento «.

– Li Zou, ingeniero de datos principal, Brian Allee, Director, Servicios de datos | Tecnología y investigación, HealthRise

Nominar el mejor diseño de datos es un problema difícil

La aplicación del mejor diseño de datos a sus tablas mejoramiento significativamente el rendimiento de la consulta y la eficiencia de rentabilidad. Tradicionalmente, con la partición, a los clientes les ha resultado difícil diseñar la organización de partición correcta para evitar sesgos de datos y conflictos de concurrencia. Para mejorar aún más el rendimiento, los clientes pueden usar Zorder en la parte posterior, pero Zordering es costoso y aún más complicado de gobernar.

Agrupación de líquidos Simplifica significativamente las decisiones relacionadas con el diseño de datos y proporciona la flexibilidad para redefinir las claves de agrupación sin reescrituras de datos. Los clientes solo tienen que Elija claves de agrupación puramente basadas en patrones de ataque de consultas, Sin tener que preocuparse por la cardinalidad, el orden de las esencia, el tamaño del archivo, el posible sesgo de datos, la concurrencia y los cambios de patrones de ataque futuro. Hemos trabajado con miles de clientes que se beneficiaron de un mejor rendimiento de consultas con agrupación de líquidos, y ahora tenemos 3000+ clientes mensuales activos escribiendo Más de 200 datos PB a tablas agrupadas por claro por mes.

Sin retención, incluso con los avances en la agrupación de líquidos, aún debe nominar las columnas para agruparse en función de cómo consulta su tabla. Los equipos de datos deben resolver:

  • ¿Qué tablas se beneficiarán de la agrupación de líquidos?
  • ¿Cuáles son las mejores columnas de agrupación para esta tabla?
  • ¿Qué pasa si mis patrones de consulta cambian a medida que evolucionan las deyección comerciales?

Adicionalmente, internamente de una estructura, los ingenieros de datos a menudo tienen que trabajar con múltiples consumidores aguas debajo para comprender cómo se consultan las tablas, al tiempo que se mantienen al día con los patrones de ataque cambiantes y los esquemas en proceso. Este desafío se vuelve exponencialmente más arduo a medida que su pandeo de datos escalera con más deyección de investigación.

Cómo la agrupación de líquidos automáticos evoluciona su diseño de datos

Con clúster de claro inevitable, Databricks Se encarga de todas las decisiones relacionadas con el diseño de datos para usted – Desde la creación de la tabla, hasta agrupar sus datos y transformarse su diseño de datos, lo que le permite concentrarse en extraer información de sus datos.

Veamos la agrupación de claro inevitable está en actividad con una tabla de ejemplo.

Considerar una tabla example_tblque se consulta con frecuencia por date y customer ID. Contiene datos de Feb 5-6 y customer IDs A to F. Sin ninguna configuración de diseño de datos, los datos se almacenan en orden de inserción, lo que resulta en el próximo diseño:

Supongamos que el cliente funciona SELECT * FROM example_tbl WHERE date = '2025-02-05' AND customer_id = 'B'. Los aprovechas del motor de consulta Estadísticas de omisión de datos delta (títulos min/max, recuentos nulos y registros totales por archivo) para identificar los archivos relevantes para escanear. La poda de lecturas de archivos innecesarios es crucial, ya que reduce el número de archivos escaneados durante la ejecución de la consulta, mejorando directamente el rendimiento de la consulta y reduciendo los costos de cuenta. Cuantos menos archivos que una consulta necesita percibir, más rápido y más eficaz se vuelve.

En este caso, el motor identifica 5 archivos para Feb 5ya que la centro de los archivos tienen un valencia min/mayor para el date columna que coincide con esa época. Sin retención, poliedro que las estadísticas de omisión de datos solo proporcionan títulos min/max, estos 5 archivos tienen un min/mayor customer_id que sugiere customer B está en algún división en el medio. Como resultado, la consulta debe escanear los 5 archivos para extraer entradas para customer B lo que lleva a una tasa de poda de archivos del 50% (leída de 5 de cada 10 archivos).

Como puede ver, el problema central es que customer BLos datos no se colocan en un solo archivo. Esto significa que extraer todas las entradas para customer B Todavía requiere percibir una cantidad significativa de entradas para otros clientes.

¿Hay alguna forma de mejorar la poda de archivos y el rendimiento de la consulta aquí? La agrupación cibernética de líquidos puede mejorar entreambos. Aquí está como:

Detrás de número de la agrupación cibernética de líquidos: cómo funciona

Una vez autorizado, la agrupación de líquidos automáticos realiza continuamente los siguientes tres pasos:

  1. Colección telemetría Para determinar si la tabla se beneficiará de la inmersión o proceso de las teclas de agrupación de líquidos.
  2. Modelando la carga de trabajo para comprender e identificar columnas elegibles.
  3. Aplicando la selección de la columna y evolucionando los esquemas de agrupación basados ​​en Investigación de costo-beneficio.

Optimización predictiva

Paso 1: Investigación de telemetría

Optimización predictiva recopila y analiza las estadísticas de escaneo de consultascomo predicados de consulta y filtros de unión, para determinar si una tabla se beneficiaría de la agrupación de líquidos.

Con nuestro ejemplo, la optimización predictiva detecta que las columnas ‘date’ y ‘customer_id’ son consultados con frecuencia.

Paso 2: modelado de carga de trabajo

La optimización predictiva evalúa la carga de trabajo de consulta e identifica las mejores claves de agrupación para Maximizar los saltos de datos.

Aprende de los patrones de consultas pasados ​​y estima las posibles ganancias de rendimiento de los diferentes esquemas de agrupación. Al aparentar consultas pasadas, predice cuán efectivamente lo haría cada opción Reduzca la cantidad de datos escaneados.

En nuestro ejemplo, utilizando escaneos registrados en ‘date’ y ‘customer_id’ y suponiendo consultas consistentes, la optimización predictiva calcula que:

  • Agrupación por ‘date’ Lee 5 archivos con tasas de poda del 50%.
  • Agrupación por ‘customer_id’lee ~ 2 archivos (una estimación) con una tasa de poda del 80%.
    • Agrupación por entreambos ‘date’ y ‘customer_id’ (Consulte el diseño de datos a continuación) lee solo 1 archivo con una tasa de poda del 90%.

Paso 3: Optimización de costo-beneficio

La plataforma Databricks garantiza que cualquier cambio en las claves de agrupación proporcione un beneficio de rendimiento claro, ya que la agrupación puede introducir gastos generales adicionales. Una vez que se identifican los nuevos candidatos esencia de agrupación, la optimización predictiva evalúa si las ganancias de rendimiento superan los costos. Si los beneficios son significativos, actualiza las claves de agrupación en las tablas administradas por el catálogo de Unity.

En nuestro ejemplo, agrupando por ‘date’ y ‘customer_id’ Resulta en una tasa de poda de datos del 90%. Legado que estas columnas se consultan con frecuencia, los costos de cuenta reducidos y el rendimiento mejorado de la consulta justifican la sobrecarga de agrupación.

Panorámica previa que los clientes han resaltado La rentabilidad de la optimización predictivaparticularmente su sobrecarga pérdida en comparación con el diseño manual de diseños de datos. Empresas como CFC Underwriting han informado último costo total de propiedad y ganancias de eficiencia significativas.

“En realidad nos encanta la agrupación de claro inevitable de Databricks porque nos da la tranquilidad de que tenemos el diseño de datos más optimizado fuera de la caja. Todavía nos ahorró mucho tiempo al eliminar la menester de tener un ingeniero para ayudar el diseño de datos. Gracias a esta capacidad, hemos notado que nuestros costos de cuenta han bajado incluso cuando hemos ampliado nuestro pandeo de datos «.

– Nikos Balanis, Jerarca de plataforma de datos, CFC

La capacidad en pocas palabras: La optimización predictiva elige claves de agrupación de líquidos en su nombre, tal que Los ahorros de costos previstas a partir de la omisión de datos superan el costo predicho de la agrupación.

Comienzo hoy

Si aún no ha autorizado la optimización predictiva, puede hacerlo seleccionando autorizado yuxtapuesto a la optimización predictiva en la consola de cuentas en Configuración> Autorización de características.

¿Nuevo en Databricks? Desde el 11 de noviembre de 2024, Databricks ha autorizado la optimización predictiva por defecto En todas las nuevas cuentas de Databricks, ejecutando optimizaciones para todas sus tablas administradas por el catálogo de la mecanismo.

Comienzo hoy al establecer CLUSTER BY AUTO En su catálogo de Unity Managed Tablas. Se requiere Databricks Runtime 15.4+ para crear nuevas tablas automáticas o alterar tablas de claro / no sometido existentes. En el futuro cercano, la agrupación cibernética de líquidos se habilitará de forma predeterminada para las tablas administradas de un catálogo de Unity recién creado. Estén atentos para más detalles.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *