Mejores prácticas de MLOps – Estadio MLOps: rastreo

Inmersión

MLOps es un delirio continuo, no un esquema de una sola vez. Implica un conjunto de prácticas y comportamientos organizacionales, no solo herramientas individuales o una pila de tecnología específica. La forma en que sus profesionales de ML colaboran y crean sistemas de IA afecta en gran medida la calidad de sus resultados. Cada detalle importa en MLOps, desde cómo comparte código y configura su infraestructura hasta cómo explica sus resultados. Estos factores dan forma a la percepción que tiene la empresa de la capacidad de su sistema de IA y su disposición a encargar en sus predicciones.

El Gran vademécum de MLOps Cubre conceptos y edificación de MLOps de suspensión nivel en Databricks. Para proporcionar más detalles prácticos para implementar estos conceptos, hemos introducido el Estadio MLOps serie. Esta serie cubre temas secreto esenciales para implementar MLOps en Databricks y ofrece mejores prácticas e información para cada uno. La serie se divide en tres fases: trepar, caminar y valer; cada grado se fundamento en la colchoneta de la precursor.

“Presentamos MLOps Gym: su monitor experiencia para MLOps en Databricks” describe las tres fases de la serie MLOps Gym, su enfoque y contenido de ejemplo.

«Rastreo» cubre la construcción de las bases para flujos de trabajo de educación mecánico repetibles.
«Walk» se centra en integrar CI/CD en su proceso MLOps.
“Run” palabra de elevar MLOps con rigor y calidad.

En este artículo, resumiremos los artículos de la grado de rastreo y resaltaremos las conclusiones secreto. Incluso si su estructura tiene una experiencia de MLOps existente, esta serie de rastreo puede ser útil al proporcionar detalles sobre cómo mejorar aspectos específicos de sus MLOps.

Sentando las bases: herramientas y marcos

Si correctamente MLOps no se comercio exclusivamente de herramientas, los marcos que elija juegan un papel importante en la calidad de la experiencia del afortunado. Le recomendamos que proporcione piezas comunes de infraestructura para reutilizarlas en todos los proyectos de IA. En esta sección, compartimos nuestras recomendaciones de herramientas esenciales para establecer una configuración MLOps sólida en Databricks.

MLflow (Seguimiento y Modelos en UC)

flujo ml se destaca como la aparejo MLOps de código descubierto líder y recomendamos insistentemente su integración en su ciclo de vida de educación mecánico. Con sus diversos componentes, MLflow aumenta significativamente la productividad en varias etapas de su delirio de educación mecánico. En el Conductor para principiantes de MLflowrecomendamos insistentemente utilizar MLflow Tracking para el seguimiento de experimentos y Model Registry con Unity Catalog como repositorio de modelos (además conocido como Modelos en UC). Luego lo guiaremos a través de un reconvención paso a paso con MLflow, diseñado para usuarios novatos.

Catálogo de mecanismo

Databricks Unity Catalog es una decisión de gobierno de datos unificada diseñada para cuidar y proteger datos y activos de educación mecánico en la plataforma Databricks Data Intelligence. Configurar el catálogo de Unity para MLOps ofrece una forma flexible y potente de resolver activos en diversas estructuras organizativas y entornos técnicos. El diseño de Unity Catalog admite una variedad de arquitecturas, lo que permite el acercamiento directo a datos para herramientas externas como AWS SageMaker o AzureML mediante el uso importante de tablas y volúmenes externos. Facilita la estructura personalizada de activos comerciales que se alinean con las estructuras de equipo, los contextos comerciales y el trascendencia de los entornos, ofreciendo soluciones escalables tanto para organizaciones grandes y mucho segregadas como para entidades más pequeñas con evacuación mínimas de aislamiento. Por otra parte, al solidarizarse al principio de privilegio insignificante y explotar el privilegio BROWSE, Unity Catalog garantiza que el acercamiento esté calibrado con precisión según las evacuación del afortunado, mejorando la seguridad sin ofrecer la capacidad de descubrimiento. Esta configuración no solo agiliza los flujos de trabajo de MLOps, sino que además los fortalece contra el acercamiento no facultado, lo que convierte a Unity Catalog en una aparejo indispensable en las operaciones modernas de datos y educación mecánico.

Tiendas de características

Un almacén de funciones es un repositorio centralizado que agiliza el proceso de ingeniería de funciones en el educación mecánico al permitir que los científicos de datos descubran, compartan y reutilicen funciones entre equipos. Garantiza la coherencia mediante el uso del mismo código para el cálculo de características durante el entrenamiento y la inferencia del maniquí. El almacén de funciones de Databricks, integrado con Unity Catalog, ofrece capacidades mejoradas como permisos unificados, seguimiento del pelaje de datos y una integración perfecta con la puntuación y el servicio de modelos. Admite flujos de trabajo complejos de educación mecánico, incluidas series temporales y casos de uso basados en eventos, al permitir búsquedas de funciones en un momento entregado y sincronizar con almacenes de datos en partidura para inferencias en tiempo positivo.

En parte 1 de la tienda de características de Databricks En este artículo, describimos los pasos esenciales para utilizar eficazmente Databricks Feature Store para sus cargas de trabajo de educación mecánico.

Control de versiones para MLOps

Si correctamente alguna vez se pasó por suspensión el control de versiones en la ciencia de datos, se ha vuelto esencial para los equipos que crean aplicaciones sólidas centradas en datos, particularmente a través de herramientas como Git.

Comenzando con el control de versiones explora la desarrollo del control de versiones en la ciencia de datos, destacando su papel fundamental para fomentar el trabajo en equipo válido, respaldar la reproducibilidad y perseverar un seguimiento de auditoría integral de los utensilios del esquema como código, datos, configuraciones y entornos de ejecución. El artículo explica el papel de Git como sistema de control de versiones principal y cómo se integra con plataformas como GitHub y Azure DevOps en el entorno de Databricks. Incluso ofrece una monitor experiencia para configurar y usar Databricks Repos para el control de versiones, incluidos pasos para vincular cuentas, crear repositorios y cuidar cambios de código.

Mejores prácticas de control de versiones explora las mejores prácticas de Git, enfatizando el flujo de trabajo de la «rama de funciones», la estructura efectiva de proyectos y la votación entre configuraciones de un solo repositorio y de múltiples repositorios. Siguiendo estas pautas, los equipos de ciencia de datos pueden colaborar de guisa más válido, perseverar limpias las bases de código y optimizar los flujos de trabajo, mejorando en última instancia la solidez y escalabilidad de sus proyectos.

¿Cuándo utilizar Apache Spark™ para ML?

Apache Spark, este sistema informático distribuido de código descubierto diseñado para el procesamiento y examen de big data, no es solo para ingenieros de sistemas distribuidos mucho capacitados. Muchos profesionales de ML enfrentan desafíos como el error de equivocación de memoria con Pandas, que Spark puede resolver fácilmente. En Aprovechando el poder de Apache Spark™ en flujos de trabajo de ciencia de datos/educación mecánicoexploramos cómo los científicos de datos pueden explotar Apache Spark para crear flujos de trabajo eficientes de ciencia de datos y educación mecánico, destacamos escenarios en los que Spark sobresale (como el procesamiento de grandes conjuntos de datos, la realización de cálculos que requieren un uso intensivo de bienes y el manejo de aplicaciones de suspensión rendimiento) y analizamos la paralelización. estrategias como el paralelismo de modelos y datos, proporcionando ejemplos prácticos y patrones para su implementación.

Construyendo buenos hábitos: mejores prácticas en código y exposición

Ahora que se ha familiarizado con las herramientas esenciales necesarias para establecer su experiencia MLOps, es hora de explorar algunas de las mejores prácticas. En esta sección, analizaremos temas secreto a considerar a medida que progreso sus capacidades de MLOps.

Escribir código íntegro para proyectos sostenibles

Muchos de nosotros comenzamos experimentando en nuestros cuadernos, anotando ideas o copiando código para probar su viabilidad. En esta etapa temprana, la calidad del código a menudo pasa a un segundo plano, lo que genera código redundante, innecesario o ineficiente que no se escalaría correctamente en un entorno de producción. la guia 13 consejos esenciales para escribir código íntegro ofrece consejos prácticos sobre cómo perfeccionar su código exploratorio y prepararlo para ejecutarlo de forma independiente y como un trabajo programado. Este es un paso crucial en la transición de tareas a propósito a procesos automatizados.

Designar el entorno de exposición adecuado

Al configurar su entorno de exposición de ML, enfrentará varias decisiones importantes. ¿Qué tipo de cluster es el más adecuado para sus proyectos? ¿Qué tamaño debe tener su congregación? ¿Debería seguir con las computadoras portátiles o es hora de cambiar a un IDE para conquistar un enfoque más profesional? En esta sección, analizaremos estas opciones comunes y ofreceremos nuestras recomendaciones para ayudarlo a tomar las mejores decisiones para sus evacuación.

Configuración del clúster

Computación sin servidor es la mejor guisa de ejecutar cargas de trabajo en Databricks. Es rápido, sencillo y fiable. En escenarios en los que la computación sin servidor no está habitable por diversos motivos, puede apelar a la computación clásica.

Conductor para principiantes sobre la configuración de clústeres para MLOps Cubre temas esenciales como decantarse el tipo correcto de clúster informático, crear y cuidar clústeres, establecer políticas, determinar los tamaños de clúster adecuados y designar el entorno de ejecución espléndido.

Recomendamos utilizar clústeres interactivos con fines de exposición y clústeres de trabajos para tareas automatizadas para ayudar a controlar los costos. El artículo además enfatiza la importancia de decantarse el modo de acercamiento adecuado, ya sea para un solo afortunado o para clústeres compartidos, y explica cómo las políticas de clúster pueden resolver eficazmente los bienes y los gastos. Por otra parte, lo guiamos a través del dimensionamiento de los clústeres según los requisitos de CPU, disco y memoria y analizamos los factores críticos para decantarse el Databricks Runtime adecuado. Esto incluye comprender las diferencias entre los tiempos de ejecución standard y ML y respaldar que se mantenga actualizado con las últimas versiones.

IDE frente a portátiles

En IDE frente a portátiles para el exposición del educación mecánicoprofundizamos en por qué la votación entre IDE y portátiles depende de las preferencias individuales, el flujo de trabajo, los requisitos de colaboración y las evacuación del esquema. Muchos profesionales utilizan una combinación de ambas, aprovechando los puntos fuertes de cada aparejo para las diferentes etapas de su trabajo. Los IDE son los preferidos para proyectos de ingeniería de ML, mientras que los portátiles son populares en la comunidad de ciencia de datos y ML.

Excelencia operativa: seguimiento

Producir confianza en la calidad de las predicciones realizadas por los sistemas de inteligencia fabricado es crucial incluso al principio de su trayectoria en MLOps. Monitorear sus sistemas de inteligencia fabricado es el primer paso para suscitar esa confianza.

Todos los sistemas de software, incluida la IA, son vulnerables a fallas causadas por problemas de infraestructura, dependencias externas y errores humanos. Los sistemas de IA además enfrentan desafíos únicos, como cambios en la distribución de datos que pueden afectar el rendimiento.

Conductor para principiantes sobre monitoreo destaca la importancia de un seguimiento continuo para identificar y contestar a estos cambios. Lakehouse Monitoring de Databricks ayuda a realizar un seguimiento de la calidad de los datos y el rendimiento del maniquí de educación mecánico mediante el seguimiento de las propiedades estadísticas y las variaciones de los datos. El monitoreo efectivo incluye configurar monitores, revisar métricas, visualizar datos a través de paneles y crear alertas.

Cuando se detectan problemas, se recomienda un enfoque humano involucrado para retornar a entrenar los modelos.

Llamado a la actividad

Si se encuentra en las primeras etapas de su delirio de MLOps, o es nuevo en Databricks y exploración desarrollar su experiencia de MLOps desde cero, estas son las lecciones principales de la grado de rastreo de MLOps Gym:

Proporcionar piezas comunes de infraestructura reutilizables para todos los proyectos de IA. MLflow proporciona un seguimiento estandarizado del exposición de IA en todos sus proyectos y, para cuidar modelos, MLflow Model Registry con Unity Catalog (Modelos en UC) es nuestra mejor opción. Feature Store aborda el sesgo de entrenamiento/inferencia y garantiza un seguimiento de pelaje sencillo en toda la plataforma Databricks Lakehouse. Por otra parte, utilice siempre Git para realizar una copia de seguridad de su código y colaborar con su equipo. Si necesita distribuir sus cargas de trabajo de ML, Apache Spark además está habitable para respaldar sus esfuerzos.
Implemente las mejores prácticas desde el principio siguiendo nuestros consejos para escribir código íntegro y escalable y decantarse las configuraciones adecuadas para su carga de trabajo de educación mecánico específica. Comprenda cuándo utilizar portátiles y cuándo explotar los IDE para conquistar un exposición más eficaz.
Genere confianza en sus sistemas de IA monitoreando activamente sus datos y modelos. Demostrar su capacidad para evaluar el rendimiento de su sistema de inteligencia fabricado ayudará a convencer a los usuarios comerciales de que confíen en las predicciones que genera.

Si sigue nuestras recomendaciones en la grado de rastreo, habrá pasado de flujos de trabajo de educación mecánico a propósito a trabajos reproducibles y confiables, eliminando procesos manuales y propensos a errores. En la próximo grado de la serie MLOps Gym, Walk, lo guiaremos sobre la integración de las mejores prácticas de CI/CD y DevOps en su configuración de MLOps. Esto le permitirá resolver proyectos de ML completamente desarrollados que se prueban y automatizan exhaustivamente mediante una aparejo DevOps en oficio de solo trabajos de ML individuales.

Publicamos periódicamente artículos de MLOps Gym sobre Blog de la comunidad de ladrillos de datos. Para proporcionar comentarios o preguntas sobre el contenido de MLOps Gym envíenos un correo electrónico a (correo electrónico protegido).

Etiquetado Gimnasio, Mejores, MLOps, Prácticas, rastreo