Al servir modelos de enseñanza necesario, el estado implícito entre solicitar una predicción y tomar una respuesta es una de las métricas más críticas para el beneficiario final. La latencia incluye el tiempo que tarda una solicitud en conmover al punto final, ser procesada por el maniquí y luego regresar al beneficiario. Ofrecer modelos a usuarios que se encuentran en una región diferente puede aumentar significativamente los tiempos de solicitud y respuesta. Imagine una empresa con una pulvínulo de clientes multirregional que aloja y ofrece un maniquí en una región diferente a aquella donde se encuentran sus clientes. Esta dispersión geográfica genera mayores costos de salida cuando los datos se mueven desde el almacenamiento en la aglomeración y es menos segura en comparación con una conexión de intercambio de tráfico entre dos redes virtuales.
Para ilustrar el impacto de la latencia en todas las regiones, una solicitud de Europa a un terminal maniquí implementado en EE. UU. puede pegar entre 100 y 150 milisegundos de latencia de red. Por el contrario, una solicitud basada en EE. UU. solo puede pegar 50 milisegundos, según la información extraída de este Estadísticas de latencia de ida y dorso de la red Azure blog.
Esta diferencia puede afectar significativamente la experiencia del beneficiario para aplicaciones sensibles a la latencia. Adicionalmente, una simple convocatoria API a menudo implica procesos de red adicionales (como llamadas a una pulvínulo de datos, servicios de autenticación u otros microservicios) que pueden aumentar aún más la latencia total de 3 a 5 veces. La implementación de modelos en múltiples regiones garantiza que los usuarios reciban servicios desde puntos finales más cercanos, lo que reduce la latencia y brinda respuestas más rápidas y confiables a nivel mundial.
En este blog, una colaboración con Punto de mira digitalexploramos cómo Databricks admite el servicio de modelos multirregionales con Compartir delta para ayudar a disminuir la latencia para casos de uso de IA en tiempo actual.
Acercarse
Para la prestación de modelos en varias regiones, las áreas de trabajo de Databricks en diferentes regiones se conectan mediante Delta Sharing para una replicación perfecta de datos y objetos de IA desde la región principal a la región de réplica. Delta Sharing ofrece tres métodos para compartir datos: el protocolo de uso compartido Databricks-to-Databricks, el protocolo de uso compartido descubierto e implementaciones administradas por el cliente mediante el servidor Delta Sharing de código descubierto. En este blog, nos centramos en la primera opción: compartir entre Databricks y Databricks. Este método permite compartir de forma segura datos y activos de IA entre dos espacios de trabajo de Databricks habilitados para Unity Catalog, lo que lo hace ideal para compartir modelos entre regiones.
En la región primaria, el equipo de ciencia de datos puede desarrollar, probar y promover continuamente nuevos modelos o versiones actualizadas de modelos existentes, asegurando que cumplan con estándares específicos de rendimiento y calidad. Con Delta Sharing y VPC peering implementados, el maniquí se puede compartir de forma segura entre regiones sin exponer los datos o los modelos a la Internet pública. Esta configuración permite que otras regiones tengan golpe de solo recital, lo que les permite utilizar los modelos para la inferencia por lotes o implementar puntos finales regionales. El resultado es una implementación de maniquí multirregional que reduce la latencia y ofrece respuestas más rápidas a los usuarios sin importar dónde se encuentren.
La bloque de remisión precedente ilustra que cuando una interpretación de maniquí se registra en un catálogo compartido en la región principal (Región 1), se comparte automáticamente en cuestión de segundos con una región externa (Región 2) mediante Delta Sharing a través del emparejamiento de VPC.
Posteriormente de que los artefactos del maniquí se comparten entre regiones, el Paquete de activos de Databricks (DAB) permite una implementación fluida y consistente del flujo de trabajo de implementación. Se puede integrar con herramientas CI/CD existentes como GitHub Actions, Jenkins o Azure DevOps, lo que permite reproducir el proceso de implementación sin esfuerzo y en paralelo con un simple comando, lo que garantiza la coherencia independientemente de la región.
El flujo de trabajo de implementación de ejemplo precedente consta de tres pasos:
- El punto final de servicio de modelos se actualiza a la última interpretación del maniquí en el catálogo compartido.
- El punto final de servicio del maniquí se evalúa mediante varios escenarios de prueba, como comprobaciones de estado, pruebas de carga y otros casos extremos predefinidos. Las pruebas A/B son otra opción viable interiormente de Databricks, donde los puntos finales se pueden configurar para penetrar múltiples variantes de modelos. En este enfoque, una proporción del tráfico se enruta al maniquí retador (maniquí B) y una proporción del tráfico se envía al maniquí campeón (maniquí A). Comprobar tráfico_config para más información. En producción, se comparan los resultados de los dos modelos y se toma una valentía sobre qué maniquí utilizar en producción.
- Si el punto final de servicio del maniquí no supera las pruebas, se revertirá a la interpretación del maniquí precedente en el catálogo compartido.
El flujo de trabajo de implementación descrito anteriormente tiene fines ilustrativos. Las tareas del flujo de trabajo de implementación del maniquí pueden variar según el caso de uso específico del enseñanza necesario. En el resto de esta publicación, analizamos las características de Databricks que permiten la prestación de modelos multirregionales.
Maniquí de Databricks que sirve puntos finales
Ladrillos de datos Servicio maniquí proporciona puntos finales de maniquí de depreciación latencia y entrada disponibilidad para confesar aplicaciones de representación crítica y de suspensión rendimiento. Los puntos finales están respaldados por computación sin servidor, que aumenta y reduce automáticamente según la carga de trabajo. Los puntos de conexión de Databricks Model Serving asimismo son muy resistentes a los errores al poner al día a una interpretación de maniquí más fresco. Si error la modernización a una interpretación del maniquí más fresco, el punto final continuará manejando las solicitudes de tráfico en vivo volviendo automáticamente a la interpretación del maniquí precedente.
Compartir delta
Un beneficio secreto de Delta Sharing es su capacidad de sostener una única fuente de verdad, incluso cuando se accede a ella desde múltiples entornos en diferentes regiones. Por ejemplo, los procesos de exposición en diversos entornos pueden lograr a tablas de solo recital desde el almacén de datos central, lo que garantiza la coherencia y evita la pleonasmo.
Las ventajas adicionales incluyen gobernanza centralizada, la capacidad de compartir datos en vivo sin replicación y emancipación sin servir de un proveedor, gracias al protocolo descubierto de Delta Sharing. Esta bloque asimismo admite casos de uso avanzados como salas limpias de datos e integración con el Mercado de ladrillos de datos.
Emparejamiento de VPC de AWS
Emparejamiento de VPC de AWS es una característica de red crucial que facilita la conectividad segura y capaz entre nubes privadas virtuales (VPC). Una VPC es una red potencial dedicada a una cuenta de AWS que proporciona aislamiento y control sobre el entorno de la red. Cuando un beneficiario establece una conexión de intercambio de tráfico de VPC, puede enrutar el tráfico entre dos VPC utilizando direcciones IP privadas, lo que hace posible que las instancias de cualquiera de las VPC se comuniquen como si estuvieran en la misma red.
Al implementar espacios de trabajo de Databricks en varias regiones, el emparejamiento de VPC de AWS desempeña un papel fundamental. Al conectar las VPC de los espacios de trabajo de Databricks en diferentes regiones, VPC Peering garantiza que el intercambio de datos y la comunicación se produzcan completamente interiormente de redes privadas. Esta configuración perfeccionamiento significativamente la seguridad al evitar la exposición a la Internet pública y reduce los costos de salida asociados con la transferencia de datos a través de Internet. En síntesis, AWS VPC Peering no se prostitución solo de conectar redes; se prostitución de optimizar la seguridad y la rentabilidad en implementaciones de Databricks en varias regiones
Paquetes de activos de Databricks
A Paquete de activos de Databricks (DAB) es una estructura similar a un esquema que utiliza un enfoque de infraestructura como código para ayudar a llevar la batuta casos de uso de enseñanza necesario complicados en Databricks. En el caso de un maniquí multirregional que atiende a DAB, es crucial organizar la implementación del maniquí en el maniquí de Databricks que atiende a puntos finales a través de flujos de trabajo de Databricks en todas las regiones. Simplemente especificando el espacio de trabajo de Databricks de cada región en databricks.yml de DAB, la implementación de código (cuadernos de Python) y bienes (trabajos, canalizaciones, modelos de DS) se optimiza en diferentes regiones. Adicionalmente, los DAB ofrecen flexibilidad al permitir actualizaciones incrementales y escalabilidad, lo que garantiza que las implementaciones sigan siendo consistentes y manejables incluso a medida que crece la cantidad de regiones o puntos finales maniquí.
Próximos pasos
- Muestre cómo se pueden implementar diferentes estrategias de implementación (pruebas A/B, implementación Canary, etc.) en DAB como parte de la implementación multirregional.
- Utilice métricas de rendimiento de antiguamente y a posteriori para mostrar cómo se redujo la latencia al utilizar este enfoque.
- Utilice una prueba de concepto para comparar la satisfacción del beneficiario con un enfoque multirregional frente a un enfoque de una sola región.
- Asegúrese de que el intercambio de datos y el servicio de modelos entre regiones cumplan con las leyes regionales de protección de datos (por ejemplo, GDPR en Europa). Evaluar si alguna consideración lícito afecta dónde se pueden penetrar los datos y los modelos.
Aimpoint Digital es una firma de observación líder en el mercado a la vanguardia de la resolución de los desafíos económicos y comerciales más complejos a través de datos y tecnología analítica. Desde la integración de observación de supermercado hasta la implementación de IA a escalera y la modernización de entornos de infraestructura de datos, Aimpoint Digital opera en dominios transformadores para mejorar el desempeño de las organizaciones. Obtenga más información visitando: https://www.aimpointdigital.com/