Athrun Data Intelligence


En la traducción 3.4, la comunidad Apache Spark ™ introdujo Spark Connect. Su edificación de servidor cliente desacoplada separa el código del adjudicatario del clúster Spark donde se realiza el trabajo. Esta nueva edificación ahora permite ejecutar su código de chispa en un almacén de copos de cocaína que elimina la aprieto de aprovisionar y ayudar grupos de chispa.

Estamos emocionados de anunciar la paisaje previa pública de Snowpark Connect para Spark. Con Snowpark Connect, los clientes pueden emplear el potente motor vectorizado de copos de cocaína para su código de chispa al tiempo que evitan la complejidad de ayudar o ajustar entornos de chispa separados, incluida la dirección de dependencias, compatibilidad de traducción y actualizaciones. Ahora puede ejecutar todo el código actual de Spark DataFrame, Spark SQL y la función definida por el adjudicatario (UDF) con copo de cocaína.

Utilizando el tiempo de ejecución de la elástica de Snowflake con almacenes virtuales, Snowpark Connect para Spark ofrece lo mejor de uno y otro mundos: el poder del motor de Snowflake y la campechanía del código de Spark, todo al tiempo que reduce los costos y el expansión acelerado. Las organizaciones ya no necesitarán grupos de chispa dedicados. Escriba o a borde de su compatible Spark SQL, DataFrame y UDF para ejecutarse directamente en la plataforma de copo de cocaína. El copo de cocaína maneja todo el ajuste y la escalera de rendimiento automáticamente, liberando a sus desarrolladores de la sobrecarga operativa de la dirección de Spark. Por otra parte, al sufrir el procesamiento de datos al copo de cocaína, establece un ámbito de gobierno único y robusto aguas en lo alto, lo que ayuda a certificar la consistencia y la seguridad de los datos en todo el ciclo de vida sin un esfuerzo redundante.

Para los clientes que usan el cliente Snowpark a las tuberías de datos de los autores en los idiomas de Python, Java y Scala, están viendo, en promedio:

  • 5.6x rendimiento más rápido sobre chispa administrada

  • 41% de hucha de costos sobre chispa administrada

Con el tiro de Snowpark Connect para Spark, puede obtener los mismos beneficios de la ejecución de SnowPark sin la aprieto de convertir su código para usar el cliente Snowpark o familiarizarse con las API del cliente Snowpark, si ya está familiarizado con Spark.

Construido en Spark Connect

El tiro deSpark Connectque desacopla el cliente y el servidor Spark, fue diseñado para allanar el uso de Spark de cualquier aplicación. Mientras que antaño de que Spark conecte su aplicación y el chisporroteo principal tuvieron que ejecutarse juntos, ahora pueden estar separados. Su aplicación, ya sea un script de Python o un cuaderno de datos, simplemente envía el plan inductivo no resuelto a un clúster de chispa remoto. Esto mejoría la conectividad de chispa a diferentes herramientas y le permite coger mejor en el expansión actual de aplicaciones.

Snowpark se construyó originalmente con esta misma premisa de separación de cliente cliente. Ahora emparejados con Spark Connect, podemos congratular la facilidad de uso, los beneficios de rendimiento y la confiabilidad de la plataforma de copo de cocaína para desencadenar cargas de trabajo sin esfuerzo. Snowpark Connect le permite ejecutar su código de chispa en un almacén de copos de cocaína, lo que hace todo el trabajo pesado que elimina la aprieto de aprovisionar y ayudar grupos de chispa. Snowpark Connect actualmente admite versiones Spark 3.5.x, lo que permite la compatibilidad con las características y mejoras en esas versiones.

 

Traer código de chispa a los datos de copos de cocaína

Hasta ahora, muchas organizaciones que usan copo de cocaína han optado por usar el conector Spark para procesar datos de copo de cocaína con código de chispa, pero esto introdujo el movimiento de datos, lo que resultó en costos adicionales, latencia y complejidad de gobernanza. Mientras se trasladó a Snowpark mejoró el rendimiento, la gobernanza subida y ahorraba pasta, a menudo significaba reescribir el código, detener el expansión. Con Snowpark Connect, las organizaciones tienen una nueva oportunidad para retornar a saludar estas cargas de trabajo y hacer el procesamiento de datos directamente en el copo de cocaína sin conversión de código mientras eliminan el movimiento y la latencia de los datos.

 

Trabajando con un Data Open Lakehouse

Snowpark Connect para Spark funciona con Tablas de apache iceberg ™incluido mesas de iceberg administradas externamente y bases de datos vinculadas al catálogo igualmente. Con esto, ahora puede emplear el poder, el rendimiento, la facilidad de uso y la gobernanza de la plataforma de copo de cocaína sin tener que mover sus datos o reescribir su código de chispa.

 

Cómo aparecer

Es simple de probar si sus datos están o accesibles para el copo de cocaína. Puede usar el entorno del cliente Spark Connect donde actualmente se ejecuta su ámbito de datos de Spark y señalarlo al copo de cocaína de esta forma:

Ahora puede ejecutar Spark DataFrame, Código SQL y UDF en copos de cocaína a través de cuadernos de copos de cocaína, cuadernos Jupyter, procedimientos almacenados de copos de cocaína, Vscode, Airflow o Snowpark expedición, lo que permite una integración perfecta en diferentes almacenamientos en copos de cocaína, iceberg (en Snowflake o Opciones de almacenamiento de nubes externos) y de almacenamiento de nubes.

Consideraciones y limitaciones

Snowpark Connect actualmente funciona con versiones Spark 3.5.x solamente. Esto incluye soporte para las API de Spark DataFrame y Spark SQL. Sin bloqueo, hay algunas distinciones con respecto a la cobertura de API. Por ejemplo, RDD, Spark ML, Mllib, Streaming y Delta API (s) no son actualmente parte de las características compatibles con Snowpark Connect. Por otra parte, para las API admitidas, puede suceder algunas diferencias semánticas a considerar como se especifica en la documentación de Snowpark Connect. Snowpark Connect está actualmente habitable solo para entornos de Python, y el soporte Java/Scala está en expansión.

Únase a la Connect de ingeniería de datos de hoy Evento para un segmento peculiar con Snowpark Connect para Spark. ¿Crees que esta podría ser una buena alternativa para tu estructura? Hable con su equipo de cuenta o comuníquese para encontrar su equipo. Marque sus calendarios y regístrese para nuestro seminario web del 10 de septiembre donde revisaremos la función con más detalle.

 


1 Basado en los casos de uso de la producción de clientes y los ejercicios de prueba de concepto que comparan la velocidad y el costo de los servicios de SnowPark frente a Apache Spark administrados entre noviembre de 2022 y mayo de 2025. Todos los hallazgos recapitulación los resultados reales del cliente con datos reales y no representan conjuntos de datos fabricados utilizados para puntos de narración.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *