Los modelos de IA de capacitación para aplicaciones del mundo verdadero requieren grandes cantidades de datos etiquetados, que pueden ser costosos, consumidores y difíciles de obtener a escalera. La gestación de datos sintéticos en entornos simulados ofrece una poderosa alternativa al permitir que los modelos de IA aprendan de conjuntos de datos virtuales físicamente precisos, controlados y escalables ayer de la implementación.
Aprovechando el replicador Omniverse, una extensión central de Isaac SIM, una aplicación de simulación robótica de remisión, con la plataforma de inteligencia de datos de Databricks proporciona un flujo de trabajo de extremo a extremo para desarrollar modelos de IA específicos de dominio en industrias como fabricación, provisión, diagnósticos de atención médica y robóticos. Al combinar la gestación de datos sintéticos, los flujos de trabajo de IA automatizados e infraestructura en la estrato escalable, las organizaciones pueden acelerar el incremento de la IA al tiempo que reducen los desafíos de adquisición de datos y mejorando la precisión del maniquí.
Este blog explora las bases técnicas de esta integración, aplicaciones del mundo verdadero, y demuestra cómo la colaboración entre Databricks y Nvidia está sobrealimentando aplicaciones de visión sintético. Al fusionar la plataforma de inteligencia de datos de Databricks con la informática de stop rendimiento incomparable de NVIDIA, las empresas ahora pueden construir, entrenar e implementar modelos de visión a velocidades previamente consideradas imposibles. Este blog explora las bases técnicas de esta integración y sus aplicaciones del mundo verdadero.
Patrones de edificación
Los fundamentos técnicos de la integración comienzan con una edificación de remisión que define interfaces, modelos de datos y protocolos de comunicación. A continuación se muestra un flujo de trabajo generalizado que demuestra la integración de aplicaciones desarrolladas con NVIDIA Omniverse y la plataforma de inteligencia de datos Databricks para proporcionar una tubería de capacitación de modelos de IA de extremo a extremo.
Los pasos en el interior del flujo de trabajo son los siguientes:
- Proporcionar datos de entrada iniciales y parámetros para delimitar la gestación de datos sintéticos
- Ejemplo: Artefactos 3D de un objeto y descripciones de campo de iluminación específica con parámetros de aleatorización y variabilidad para mostrar la variación esperada.
- Genere datos sintéticos con el replicador Omniverse para ISAAC SIM.
- Ejemplo: Genere imágenes de diferentes variaciones de un objeto CAD específico capturado en diferentes ángulos.
- Procesar los datos en el interior de un formato de Lakehouse, como Laguna deltapara prepararse para el entrenamiento maniquí de IA moyálico.
- Ejemplo: Configure las tuberías de la alberca de Databricks para trocar y harmonizar el conjunto de datos y los metadatos asociados para un contexto adicional.
- Modelos de trenes/tunas finas para casos de uso específicos de dominio en Databricks
- Ejemplo: Seguimiento de experimentos en varias ejecuciones de entrenamiento de modelos para el maniquí de visión sintético Usted Merienda (YOLO). Almienda modelos en el catálogo de la dispositivo de Databricks para el gobierno de modelos en todo el ciclo de vida de MLOPS.
- Servir los modelos específicos del dominio para la inferencia en tuberías, aplicaciones y flujos de trabajo.
- Ejemplo: Registre los modelos en el catálogo de Databricks Unity y sirva en el maniquí de DataBricks obvio de implementar que sirvan puntos finales.
Adentro de esta edificación, Delta Lake se utiliza como la capa de integración entre Nvidia Omniverse y Databricks. Pidimos las dos plataformas aprovechando un prototipo y escritor personalizado, que permite que una aplicación desarrollada con Omniverse escriba datos sintéticos directamente en Lakehouse. Utilizando este enfoque, en área de escribir los datos en el disco en forma de archivos PNG y Numpy, las aplicaciones con viandas de Omniverse pueden escribir las imágenes sintéticas generadas y los metadatos correspondientes en el formato del alberca Delta. Los archivos aterrizan directamente en el almacenamiento en la estrato y están registrados en el catálogo de Unity, donde se procesan más utilizando Databricks para que estén disponibles para la capacitación del maniquí posterior.
Un nuevo patrón para mlops de visión sintético
La integración de Nvidia Omniverse y Databricks establece un nuevo modelo para el incremento de la visión sintético que albarca la gestación de datos sintéticos y la IA de calidad industrial obvio de usar. Adentro de los entornos de fabricación, los modelos de detección de defectos a menudo encuentran tres desafíos principales: identificar nuevos defectos, adaptarse a nuevos productos y desempeñarse en diversos entornos del mundo verdadero.
Para enfrentarse estos desafíos, la plataforma Nvidia Omniverse permite a los clientes construir tuberías de gestación sintética personalizadas. Nvidia Omniverse permite a los desarrolladores crear ángulos de cámara completamente nuevos, condiciones de iluminación y escenarios físicos en sus aplicaciones, mejorando significativamente la robustez y la adaptabilidad del maniquí más allá de los métodos tradicionales, como las imágenes giratorias o brillantes.
Al automatizar la gestación de imágenes, el proceso de gestación de datos sintéticos se convierte en un parámetro sintonizable en el interior de Databricks ‘ Mlflow administrado. Estos ajustes se pueden hacer adyacente con hiperparámetros tradicionales como la tasa de estudios y el tamaño de lotes. A medida que identifica qué variaciones impactan la precisión del maniquí, puede refinar su enfoque de entrenamiento para centrarse en las combinaciones más efectivas de datos sintéticos e hiperparámetros al tiempo que minimiza el tiempo dedicado a configuraciones menos productivas.
Desbloqueo de nuevos casos de uso
Al tener datos sintéticos como un parámetro sintonizable, se desbloquean nuevos casos de uso para los fabricantes sin interrumpir las operaciones reales:
- Detección de defectos en el interior del control de calidad de fabricación – Los modelos de visión sintético fuera de la caja solo pueden distinguir objetos basados en datos disponibles en el mundo verdadero en los que han sido capacitados. Con este flujo de trabajo, los fabricantes ahora pueden producir imágenes sintéticas sin problemas que comprenden varios defectos, como la corrosión, la textura, la fractura de bisectriz o los rasgos físicos, las variaciones de color/tamaño utilizando los modelos CAD 3D de sus productos que permiten a las empresas modificar modelos y los servirán en databricks para atrapar defectos ayer de los productos.
- Diseño generativo de productos – Antaño de que los productos pasen del concepto a la producción, los equipos de diseño primero crean representaciones 3D detalladas de cómo se verá la sinceridad en las herramientas de software CAD. Usando estos mismos diseños adyacente con Omniverse Replicator, ahora podemos producir los datos sintéticos necesarios para permitir que los modelos de diseño generativo se ajusten en Databricks, lo que permite la exploración del espacio de diseño mucho ayer de que comience la fabricación física. Este enfoque integrado ayudará a los fabricantes a producir soluciones de diseño viables y optimizadas (representadas como modelos 2D/3D) a partir de un conjunto cubo de requisitos y predecir su rendimiento más rápido que los estudios de simulación tradicionales. Gracias a las capacidades de DevOps y de programación de Databricks, tales procesos se pueden activar y ejecutar juntos como una tubería de extremo a extremo (por ejemplo, cuando una nueva traducción de la representación CAD está apto).
- Propiocepción de robótica y automatización – Los desarrolladores pueden integrar el replicador Omniverse en su flujo de trabajo para producir conjuntos de datos sintéticos que abarcan innumerables configuraciones de entorno, ángulos de cámara y escenarios de iluminación. Los fabricantes de robótica pueden usar Databricks para acumular varias imágenes de punto de pinta de escenas de OpenUsd y ejecutar experimentos de ajuste de modelos paralelos y distribuidos para desarrollar rápidamente una mejor comprensión de IA de movimientos de benefactor robóticos particulares en entornos de fabricación específicos.
Estos enfoques permiten a los fabricantes capacitar a una variedad más amplia de modelos de visión sintético para resolver problemas comerciales de guisa proactiva. Los defectos raros con datos que anteriormente eran demasiado escasos para entrenar ahora se pueden aumentar con numerosos ejemplos realistas, lo que permite a las empresas atrapar defectos ayer de escapar mientras preparan las empresas para las empresas para las empresas para las empresas para las empresas Nueva era de inteligencia de datos.
Resolver las brechas de datos de una empresa de atención médica
Siemens Healthineers, un cliente conjunto de atención médica de Databricks y Nvidia inspiró esta edificación de integración luego de padecer desafíos. El flujo de trabajo fragmentado, con un ingeniero que genera datos sintéticos a través de una aplicación desarrollada con Nvidia Omniverse en las instalaciones y otro traslado de datos a la estrato para capacitación e implementación de ML en Databricks, creó retrasos.
Al implementar el catálogo de Databricks Unity para centralizar todos los datos, funciones y modelos bajo un solo entorno de gobierno e integrar directamente las capacidades de gestación de datos sintéticas de la plataforma Omniverse, la estructura redujo drásticamente los ciclos de iteración del maniquí «de semanas a días», mejoró la integración de datos y la trazabilidad, y aceleró el tiempo al mercado.
Si asiste a NVIDIA GTC 2025, visítenos en nuestro stand de Databricks #1733 o Solicite una reunión con Databricks en GTC.
Para obtener más información sobre Nvidia Omniverse y la plataforma de inteligencia de datos de Databrick, consulte los medios adicionales a continuación:
- Omniverse Replicator se crea como una extensión del kit Omniverse y se distribuye convenientemente a través del código Omniverse.
- Si nunca ha utilizado la plataforma de inteligencia Databricks actos, regístrese para obtener un cuenta de prueba gratuita. Asimismo puede encontrar una registro completa de Agrupación de Databricks ofrendas, capacitacióny certificaciones.
Sitio web de Nvidia Omniverse
Sitio web de la plataforma de inteligencia de datos de Databricks
Databricks <> anuncio de asociación NVDA
Databricks – Documentación de ML OPS