Athrun Data Intelligence


Nuestros estudios comparativos han demostrado que los pandas en Snowflake escalan a más de un terabyte de datos, para conjuntos de datos en los que la biblioteca de pandas normalizado se queda sin memoria incluso con menos de 100 GB. En promedio, en cargas de trabajo representativas, descubrimos que los pandas en Snowflake funcionan aproximadamente 6 veces más rápido en una escalera de 1 GB y aproximadamente 30 veces más rápido en una escalera de 10 GB que los pandas normalizado en memoria.

Se requiere un ajuste o reescritura mínimos para su uso.

Con la inclusión de pandas en Snowflake, los usuarios pueden trabajar con la API y la semántica de pandas que ya conocen. Esta característica permite a los desarrolladores ejecutar pandas directamente en sus datos en Snowflake, mientras que las consultas se traducen a SQL para ejecutarse de forma nativa en Snowflake.

Pandas en Snowflake es parte de la biblioteca Python de Snowpark, que permite el procesamiento escalable de datos de código Python interiormente de la plataforma Snowflake. Con solo cambiar algunas líneas de la manifiesto de importación, los desarrolladores obtienen la misma experiencia de Pandas que conocen y aman con los beneficios de escalabilidad y seguridad de Snowflake. Como resultado, las migraciones a Snowflake son fáciles y los equipos de datos evitan el tiempo y el consumición de reescribir sus canales de Pandas a otros marcos de big data o de aprovisionar costosas máquinas con suscripción memoria.

El paso seguro interiormente de Snowflake elimina los riesgos de datos confidenciales en las máquinas locales

El diseño en memoria de pandas ha creado problemas para las organizaciones, en particular las preocupaciones de seguridad y gobernanza que surgen al extraer datos empresariales a computadoras portátiles para procesarlos con pandas. Como parte de la biblioteca Python de Snowpark, el procesamiento se envía a Snowflake directamente interiormente del perímetro seguro y gobernado de Snowflake.

Desarrollado sobre el tesina de código campechano Modin

En Snowflake, nos comprometemos a encontrarnos con los desarrolladores donde estén al integrar herramientas y estándares de código campechano con las potentes capacidades de Snowflake AI Data Cloud. pandas en Snowflake se plinto en Modín Plan de código campechano. Modin es una biblioteca de pandas distribuida que se unió a la tribu de código campechano proyectos en Snowflake a través de una adquisición en octubre de 2023. Cientos de miles de científicos de datos y desarrolladores utilizan Modin para subir sin problemas sus flujos de trabajo de Pandas. Snowflake contribuye activamente y apoya tanto al tesina de código campechano como a su potente comunidad.


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *