Ya sea prediciendo la pérdida de clientes, detectando anomalías en los datos de transacciones o explorando patrones de aglomeración en incorporaciones de IA, las empresas están incorporando modelos generativos de IA y ML para utilizar conjuntos de datos más grandes que nunca. A medida que crecen los conjuntos de datos, la rapidez de la GPU se vuelve crítica, ya que esperar horas o días para que los algoritmos de estudios necesario terminen de ejecutarse puede achicar significativamente la productividad y aumentar los costos.
Para ayudar a los clientes a satisfacer las crecientes demandas de conjuntos de datos más grandes, Copo de cocaína ML ha invertido mucho en flujos de trabajo habilitados para GPU en los últimos primaveras. Hoy, estamos encantados de anunciar que Snowflake ML ahora viene preinstalado con NVIDIA cuml y CuDF bibliotecas para acelerar algoritmos de estudios necesario populares con GPU. Con esta integración nativa, los clientes de Snowflake pueden acelerar fácilmente los ciclos de expansión de modelos para scikit-learn, pandas, UMAP y HDBSCAN, sin pobreza de cambios de código. Ejecuciones de relato de NVIDIA muestran aceleraciones de 5 veces el tiempo requerido para Random Forest y hasta 200 veces para HDBSCAN en las GPU NVIDIA A10 en comparación con las CPU.
En esta publicación de blog, analizaremos ejemplos de modelado temático y genómica para ilustrar cómo estas bibliotecas recientemente integradas hacen que la exploración de grandes conjuntos de datos con técnicas de agrupación y reducción de dimensionalidad de última vivientes sea rápida y fluida en Snowflake ML.
Bibliotecas NVIDIA CUDA-X para ciencia de datos
A medida que los conjuntos de datos alcanzan millones de filas e incluyen de cientos a miles de dimensiones, se vuelven necesarias alternativas a las herramientas de procesamiento tradicionales basadas solamente en CPU. El cuml y CuDF Las bibliotecas son parte del Ciencia de datos NVIDIA CUDA-X (CUDA-X DS), un conjunto de bibliotecas aceleradas por GPU de código hendido diseñadas para potenciar los procesos de procesamiento de datos. Las GPU proporcionan potencia de procesamiento paralelo para flujos de trabajo de datos más rápidos, escalables y eficientes.
Figura 1: CUDA-X Data Science es una colección de bibliotecas de código hendido que aceleran las bibliotecas y plataformas populares de ciencia de datos.
Las bibliotecas CUDA-X DS combinan el poder de las GPU con las conocidas API de Python para estudio de datos, estudios necesario y estudio de gráficos, lo que ofrece importantes aceleraciones sin pobreza de que los equipos reescriban su código. Con CUDA-X DS, puede acelerar el entrenamiento de modelos y los ciclos de optimización iterativos mediante GPU, procesando conjuntos de datos con cientos de millones de filas en una sola GPU. En una GPU A10, cuML puede acelerar algoritmos de estudios necesario como TSNE hasta 72 veces, UMAP hasta 25 veces y HDBSCAN hasta 200 veces en conjuntos de datos amplios en comparación con la computación solo con CPU, y puede achicar los tiempos de procesamiento de días a solo minutos.
Comenzando con el expansión de modelos acelerados por GPU en Snowflake ML
Figura 2: Snowflake ML incluye un sólido conjunto de capacidades de inferencia, operaciones y expansión de modelos directamente en la misma plataforma que sus datos gobernados.
Copo de cocaína ML es un conjunto de capacidades de inferencia y expansión de ML de un extremo a otro integradas directamente con los datos en una única plataforma. La integración con NVIDIA cuml y CuDF Se puede ingresar a las bibliotecas a través de Tiempo de ejecución del contenedorun entorno prediseñado para el expansión de estudios necesario a gran escalera. Para acelerar algoritmos de estudios necesario como scikit-learn y pandas en GPU totalmente administradas, los clientes de Snowflake pueden ejecutar fácilmente sus scripts de ciencia de datos en Container Runtime a través de Cuadernos de copos de cocaína o mediante pushdown remoto desde cualquier IDE (función o giro de archivos) facilitado por Trabajos de estudios necesarioaportando varios beneficios:
-
Experiencia de desarrollador simplificada: Con una imagen de tiempo de ejecución específica de GPU, ya tiene entrada a las bibliotecas y marcos más recientes y populares (PyTorch, XGBoost, LightGBM, scikit-learn y muchos más) que admiten el expansión de ML. En la última aggiornamento, cuML y cuDF se han integrado completamente en el entorno de GPU predeterminado para que pueda obtener entrada a la rapidez para pandas, scikit-learn, UMAP y HDBSCAN directamente.
-
Obvio entrada a instancias de GPU: Con una computadora portátil simple o una configuración de ejecución remota, puede aspirar una instancia de un clan de computación apropiado para la carga de trabajo. Con una selección de nodos de GPU, tiene entrada a una o más GPU en un solo nodo, así como a diferentes tipos de GPU para adaptarse a la complejidad de su caso de uso.
Figura 3: Acelere fácilmente algoritmos de estudios necesario populares con GPU de portátiles Snowflake mediante la integración directa con las bibliotecas CUDA-X de NVIDIA.
La integración de Snowflake de las bibliotecas de NVIDIA es una opción poderosa para los desafíos de la industria caracterizados por grandes conjuntos de datos que requieren rapidez de GPU, como el modelado de temas y los casos de uso de genómica.
Hacer posible el modelado de temas a escalera
Cuando se aborda el estudio de texto a gran escalera, como el modelado de temas, la eficiencia computacional se convierte rápidamente en un factótum crítico. La naturaleza iterativa y exploratoria de muchos flujos de trabajo de ciencia de datos hace que la pobreza de un decano rendimiento sea aún más apremiante. No es factible esperar horas para cada iteración.
La integración de Snowflake con las bibliotecas NVIDIA CUDA-X puede aportar importantes aceleraciones a las tareas de ciencia de datos y estudios necesario sin pobreza o casi ningún cambio de código en el código Python existente basado en CPU. Tareas como elaborar cientos de miles o millones de reseñas de productos a partir de texto sin formato en grupos de temas admisiblemente definidos pueden soportar solo unos minutos en la GPU.
Este inicio rápido demuestra cómo la computación acelerada en Snowflake hace posible el modelado de temas con BERTopic (una biblioteca de modelado de temas populares) en 500.000 reseñas de libros en menos de unos minutos en la instancia GPU_NV_S, en zona de tardar más de ocho horas en la instancia CPU_X64_L.
El flujo de trabajo de modelado de temas basado en BERTopic generalmente sigue estos pasos:
-
observar datos: Lee datos de texto en la memoria usando una biblioteca como pandas
-
Crear incrustaciones: Convierta el texto sin formato en representaciones numéricas (incrustaciones) usando la biblioteca SentenceTransformers
-
Sujetar la dimensionalidad: Condense incrustaciones de inscripción dimensión en un espacio de último dimensión mientras conserva información crucial utilizando la biblioteca umap-learn
-
Clase: Agrupe las incrustaciones de dimensionalidad escasa para identificar temas centrales utilizando la biblioteca HDBSCAN.
Ahora puede acelerar estos cuatro pasos en su computadora portátil. SentenceTransformers utilizará automáticamente PyTorch cobrador para CUDA. Y para acelerar su código pandas, umap-learn y HDBSCAN sin cambios, simplemente valor cuML y cuDF y “active el interruptor”:
Con esto, se acelera todo el flujo de trabajo de modelado de temas: no más horas de paciencia para que su computadora portátil termine de ejecutarse.
Permitir la innovación con flujos de trabajo genómicos acelerados
La computación acelerada está transformando la atención médica y la biología digital, haciendo posible que científicos e investigadores aprovechen los conjuntos de datos cada vez más grandes generados por dispositivos médicos de próxima vivientes y operacionalicen la IA para resolver problemas complejos.
Los usuarios de Snowflake ahora pueden beneficiarse las capacidades sin pobreza de cambios de código de las bibliotecas NVIDIA CUDA-X DS, como cuDF, cuML y más, para acelerar el estudio de datos de secuencia de ADN. Para procesar secuencias biológicas de inscripción dimensión, cuML y cuDF proporcionan una rapidez significativa:
-
Examen de secuencia más rápido: Al convertir secuencias de ADN sin procesar en vectores de características, los investigadores pueden realizar tareas de clasificación (como predecir familias de genes) a escalera.
-
Integración perfecta del flujo de trabajo: La ejecución de código pandas y scikit-learn directamente en las GPU acelera drásticamente la carga de datos, el preprocesamiento y el entrenamiento de modelos conjuntos.
-
Precipitación de cambio de código cero: Ingresar a la rapidez de GPU para flujos de trabajo existentes sin pobreza de cambios de código permite a los investigadores centrarse en conocimientos biológicos y diseño de modelos en zona de programación de GPU de bajo nivel.
En el inicio rápido, demostramos el entrenamiento de un maniquí de estudios necesario para predecir la tribu de genes de una secuencia de ADN utilizando scikit-learn y XGBoost. Para acelerar nuestro entrenamiento con GPU, solo necesitamos cargar el acelerador cuML (para scikit-learn) y configurar nuestro maniquí XGBoost con dispositivo = «cuda».
Como todo investigador de datos sabe, el primer maniquí que entrena rara vez es el mejor. Desafortunadamente, la ingeniería de funciones sólida y el ajuste de modelos pueden soportar horas o incluso días, lo que requiere probar potencialmente cientos o miles de canalizaciones diferentes.
Con Snowflake ML, puede convertir horas de entrenamiento de modelos en minutos y concentrarse en el flujo de trabajo genómico en zona de preocuparse por cómo reescribir el código para las GPU, porque no es necesario.
Comience hoy
Copo de cocaína ML está preintegrado con las bibliotecas cuML y cuDF de NVIDIA para aumentar la eficiencia operativa y la escalabilidad del estudios necesario a gran escalera en datos de Snowflake. Esta capacidad ampliada prosperidad significativamente los ciclos iterativos de expansión y descubrimiento en dominios computacionalmente exigentes, al tiempo que abstrae las complejidades inherentes de la infraestructura de GPU y la diligencia del entorno.
¿Presto para comenzar? Para probar las bibliotecas de NVIDIA desde Container Runtime de Snowflake, puede seguir fácilmente este inicio rápido y documentación del producto para acelerar sus flujos de trabajo de ML en GPU.