Athrun Data Intelligence


El procesamiento y examen de datos espaciales es fundamental para las cargas de trabajo geoespaciales en Databricks. Muchos equipos dependen de bibliotecas externas o extensiones de Spark como Apache Sedona, Geopandas, el plan Mosaic de Databricks Lab, para manejar estas cargas de trabajo. Si adecuadamente los clientes han tenido éxito, estos enfoques añaden gastos operativos y a menudo requieren ajustes para alcanzar un rendimiento aceptable.

A principios de este año, Databricks lanzó soporte para SQL espacialque ahora incluye 90 funciones espaciales y soporte para juntar datos en GEOMETRÍA o GEOGRAFÍA columnas. El SQL espacial integrado de Databricks es el mejor enfoque para juntar y procesar datos vectoriales en comparación con cualquier alternativa porque aborda todos los desafíos principales del uso de bibliotecas complementarias.: mucho estable, rendimiento increíble y con Databricks SQL Serverless, no es necesario ordenar clústeres clásicos, compatibilidad de bibliotecas ni versiones de tiempo de ejecución.

Una de las tareas de procesamiento espacial más comunes es comparar si dos geometrías se superponen, dónde una geometría contiene a la otra o qué tan cerca están entre sí. Este examen requiere el uso de uniones espaciales, para las cuales es esencial un excelente rendimiento dispuesto para usar para acelerar el tiempo de consecución de información espacial.

Uniones espaciales hasta 17 veces más rápidas con Databricks SQL Serverless

Nos complace anunciar que todos los clientes que utilizan Spatial SQL integrado para uniones espaciales, verá un rendimiento hasta 17 veces más rápido en comparación con los clústeres clásicos con Apache Sedona1 instalado. Las mejoras de rendimiento están disponibles para todos los clientes que utilicen Ladrillos de datos SQL sin servidor y clústeres clásicos con Databricks Runtime (DBR) 17.3. Si ya está usando predicados espaciales integrados de Databricks, como ST_Intersecta o ST_Contieneno se requiere cambio de código.

las uniones espaciales se aceleran 17x
El rendimiento relativo de Databricks para datos a gran escalera es hasta 17 veces más rápido que el de Sedona, dispuesto para usar.
Apache Sedona 1.7 no era compatible con DBR 17.x en el momento de las pruebas; se utilizó DBR 16.4.

La ejecución de uniones espaciales presenta desafíos únicos, y el rendimiento está influenciado por múltiples factores. Los conjuntos de datos geoespaciales a menudo están muy sesgados, como en el caso de regiones urbanas densas y áreas rurales dispersas, y varían ampliamente en complejidad geométrica, como la intrincada costa noruega en comparación con las simples fronteras de Colorado. Incluso a posteriori de una poda valioso de archivos, los candidatos a unión restantes todavía exigen operaciones geométricas de enumeración intensivo. Aquí es donde brilla Databricks.

La alivio de las uniones espaciales proviene del uso de indexación de árbol R, uniones espaciales optimizadas en Photon y optimización de uniones de rango inteligente, todo ello adaptado automáticamente. Usted escribe SQL estereotipado con funciones espaciales y el motor maneja la complejidad.

La importancia empresarial de las uniones espaciales

Una unión espacial es similar a una unión de cojín de datos, pero en extensión de coincidir con ID, utiliza una predicado espacial para hacer coincidir los datos según la ubicación. Los predicados espaciales evalúan la relación física relativa, como superposición, contención o proximidad, para conectar dos conjuntos de datos. Las uniones espaciales son una poderosa utensilio para la agregación espacial, que ayuda a los analistas a descubrir tendencias, patrones e información basada en la ubicación en diferentes lugares, desde centros comerciales y granjas, hasta ciudades y todo el planeta.

Las uniones espaciales responden preguntas críticas para el negocio en todas las industrias. Por ejemplo:

  • Las autoridades costeras monitorean el tráfico de embarcaciones adentro de un puerto o límites náuticos
  • Los minoristas analizan el tráfico de vehículos y los patrones de visitas en las ubicaciones de las tiendas
  • Las empresas agrícolas modernas realizan examen y pronósticos del rendimiento de los cultivos combinando datos meteorológicos, de campo y de semillas.
  • Agencias de seguridad pública y compañías de seguros localizan qué viviendas están en peligro de inundación o incendio
  • Los equipos de operaciones de energía y servicios públicos crean planes de servicios e infraestructura basados ​​en el examen de las fuentes de energía, el uso del suelo residencial y comercial y los activos existentes.

Preparación comparativa de unión espacial

Para los datos, seleccionamos cuatro conjuntos de datos a gran escalera a nivel mundial de Overture Maps Foundation: direcciones, edificios, uso del suelo y carreteras. Puede probar las consultas usted mismo utilizando los métodos que se describen a continuación.

Utilizamos conjuntos de datos de Overture Maps, que inicialmente se descargaron como GeoParquet. A continuación se muestra un ejemplo de preparación de direcciones para la evaluación comparativa de Sedona. Todos los conjuntos de datos siguieron el mismo patrón.

Además procesamos los datos en tablas Lakehouse, convirtiendo el parquet WKB en nativo. GEOMETRÍA tipos de datos para la evaluación comparativa de Databricks.

Consultas de comparación

El croquis antedicho utiliza el mismo conjunto de tres consultas, probadas en cada cálculo.

Consulta n.º 1: ST_Contains (edificios, direcciones)

Esta consulta evalúa los 2,5 mil millones de polígonos de construcción que contienen los 450 millones de puntos de dirección (unión de punto en polígono). El resultado son más de 200 millones de coincidencias. Para Sedona, revertimos esto para ST_Within(a.geom, b.geom) para tolerar la optimización predeterminada del costado de compilación izquierdo. En Databricks, no existe una diferencia material entre usar ST_Contiene o ST_Dentro.

Consulta n.º 2: ST_Covers (uso del suelo, edificios)

Esta consulta evalúa los 1,3 millones de polígonos de uso de suelo «industrial» en todo el mundo que cubren los 2,5 mil millones de polígonos de construcción. El resultado son más de 25 millones de coincidencias.

Consulta n.º 3: ST_Intersects (carreteras, uso del suelo)

Esta consulta evalúa los 300 millones de carreteras que se cruzan con los 10 millones de polígonos de uso de suelo ‘residencial’ en todo el mundo. El resultado son más de 100 millones de coincidencias. Para Sedona, revertimos esto para ST_Intersects(l.geom, trans.geom) para tolerar la optimización predeterminada del costado de compilación izquierdo.

¿Qué sigue para SQL espacial y los tipos nativos?

Databricks continúa agregando nuevas expresiones espaciales basadas en las solicitudes de los clientes. Aquí hay una repertorio de funciones espaciales que se agregaron desde la Horizonte previa pública: ST_AsEWKB, ST_Dump, ST_AnilloExterior, ST_InteriorRingN, ST_NumAnillosInteriores. Adecuado ahora en DBR 18.0 Beta: ST_Azimuth, ST_Boundary, ST_ClosestPoint, soporte para la ingesta de EWKT, incluidas dos nuevas expresiones, ST_GeogFromEWKT y ST_GeomFromEWKT, y mejoras de rendimiento y solidez para ST_IsValid, ST_MakeLiney ST_MakePolygon.

Envíe sus comentarios al equipo de Producto

Si desea compartir sus solicitudes de expresiones ST adicionales o características geoespaciales, complete este breve pesquisa.

Aggiornamento: tipos geográficos de código amplio en Apache Spark™

La contribución de GEOMETRÍA y GEOGRAFÍA tipos de datos para Apache Spark™ ha rematado grandes avances y está en camino de comprometerse con Spark 4.2 en 2026.

Pruebe Spatial SQL de gorra

Ejecute su próxima consulta espacial en Databricks SQL hoy y vea qué tan rápidas pueden ser sus uniones espaciales. Para obtener más información sobre las funciones de SQL espacial, consulte la SQL y chispa documentación. Para obtener más información sobre Databricks SQL, consulte la sitio web, represión por el productoy Publicación gratuita de ladrillos de datos. Si desea portar su almacén existente a un almacén de datos sin servidor de parada rendimiento con una excelente experiencia de heredero y un costo total más bajo, entonces Databricks SQL es la opción: pruébalo de gorra.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *