Dilema de documentación de datos de 7-Eleven
El ecosistema de datos de 7-Eleven es masivo y complicado, que alberga miles de tablas con cientos de columnas en nuestro entorno de Databricks. Estos datos forman la columna vertebral de nuestras operaciones, descomposición y procesos de toma de decisiones. Tradicionalmente, el diccionario de datos y la documentación de 7-Eleven vivían en páginas de confluencia, mantenidas meticulosamente por los miembros del equipo de datos que documentarían manualmente las definiciones de tabla y columnas.
Nos enfrentamos a un obstáculo crítico cuando comenzamos a explorar las características de IA en la plataforma de inteligencia de datos de Databricks, incluidos AI/BI Genie, paneles inteligentes y otras aplicaciones. Estas herramientas avanzadas dependen en gran medida de los metadatos de tabla y los comentarios integrados directamente interiormente de Databricks para suscitar ideas, objetar preguntas sobre nuestros datos y crear visualizaciones automatizadas. Sin los comentarios adecuados de la tabla y la columna en Databricks en sí, esencialmente estábamos dejando poderosas capacidades de IA en la mesa. Por ejemplo, cuando Genie carece de definiciones de columnas, puede malinterpretar el significado de columnas a medida, que requieren que los usuarios finales aclaren. Una vez que enriquecimos nuestros metadatos, la comprensión contextual de Genie mejoró drásticamente, identificando con precisión los propósitos de columnas, surgiendo las tablas correctas en respuesta a consultas de jerga natural y generando ideas mucho más relevantes y procesables. En pocas palabras, Genie, como todos los agentes de IA, se vuelve más considerado y más útil cuando tiene mejores metadatos para trabajar.
La brecha entre nuestras páginas de confluencia correctamente documentadas y nuestro entorno de datos de «luz de metadatos» nos impidió darnos cuenta de todo el potencial de nuestra inversión en la plataforma de datos.
Escalera inasequible de la migración manual
Cuando inicialmente consideramos portar nuestra documentación de Confluence a Databricks, la escalera del desafío se hizo evidente de inmediato. Con miles de tablas que contienen cientos de columnas cada una, una migración manual requeriría:
- Trabajo de trabajo intensivo: Cientos de horas de persona para copiar y pegar documentación
- Actualizaciones de metadatos manuales: Elaboración de miles de declaraciones SQL individuales para renovar metadatos o ir a cada interfaz de agraciado de la tabla
- Supervisión del plan: Implementar un sistema de seguimiento para avalar que todas las tablas se actualizaran correctamente
- Seguro de calidad: Creación de un proceso de subsistencia para atrapar errores humanos inevitables
- Mantenimiento continuo: Establecer un protocolo de mantenimiento continuo para suministrar a entreambos sistemas sincronizados
El error humano sería obligatorio incluso si dedicamos medios significativos a este esfuerzo. Se perderían algunas tablas, los comentarios estarían formateados incorrectamente y el proceso probablemente necesitaría repetirse a medida que la documentación evolucione. Encima, la naturaleza tediosa del trabajo probablemente conduce a una calidad inconsistente en toda la documentación.
La mayoría preocupante fue el costo de oportunidad. Si correctamente nuestro equipo de datos se centró en esta migración, no pudieron trabajar en iniciativas de viejo valía. Todos los días, enfrentamos demoras en el fortalecimiento de nuestros metadatos de Databricks, dejando el potencial sin explotar en las capacidades AI/BI que ya tienen la mano.
La tubería de procesamiento de documentos inteligentes
Para resolver este desafío, 7-Eleven desarrolló un sofisticado flujo de trabajo de AI de IA impulsado por Pasión 4 Maverick, implementado a través del maniquí Mosaic AI, que automatizaron todo el proceso de migración de documentación a través de una tubería inteligente de múltiples etapas:
- Etapa de descubrimiento: El agente utiliza las API de Databricks para obtener todas las tablas, nombres de tabla y estructuras de columnas.
- Recuperación de documentos: El agente extrae todos los documentos del diccionario de datos relevantes de Confluence, creando un corpus de posibles fuentes de documentación.
- Rerancia y filtrado: Implementación de algoritmos avanzados de replicación, el sistema prioriza la documentación más relevante para cada tabla, filtrando el ruido y el contenido irrelevante. Este paso crítico asegura que combinemos las tablas con su documentación adecuada, incluso cuando las convenciones de nombres no son perfectamente consistentes.
- Coincidencia inteligente: Para cada tabla de Databricks, el agente de IA analiza las posibles coincidencias de documentación, utilizando la comprensión contextual para determinar la página de confluencia correcta, incluso cuando los nombres no coinciden exactamente.
- Extirpación dirigida: Una vez que se identifica la documentación correcta, el agente extrae de modo inteligente las descripciones relevantes para las tablas y sus columnas, preservando el significado flamante mientras se formatea adecuadamente para los metadatos de Databricks.
- Concepción SQL: El sistema genera automáticamente las declaraciones SQL formateadas correctamente para renovar la tabla de Databricks y los comentarios de la columna, el manejo de caracteres especiales y los requisitos de formato.
- Ejecución y demostración: El agente ejecuta las actualizaciones de SQL y, a través del seguimiento y la evaluación de MLFLOW, verifica que los metadatos se aplicaran correctamente, registren los resultados y superficie cualquier problema para la revisión humana.
- Monitoreo e información: El equipo además utiliza el tablero AI/BI Genie para rastrear las métricas del plan en tiempo verdadero, asegurando la transparencia, el control de calidad y la mejoramiento continua.
Esta tubería inteligente transformó meses de trabajo tedioso y propenso a errores en un proceso automatizado que completó la migración original en días. La capacidad del sistema para comprender el contexto y hacer coincidencias inteligentes entre los medios con nombres diferentes o estructurados fue esencia para conquistar una adhesión precisión.
Desde que implementamos esta opción, planeamos portar la documentación para más del 90% de nuestras tablas, desbloqueando todo el potencial de las funciones AI/BI de Databricks. Lo que comenzó como un asistente de IA levemente utilizado se ha convertido en una aparejo cotidiana en nuestros flujos de trabajo de datos. La capacidad de Genie para comprender el contexto ahora refleja cómo un humano interpretaría los datos, gracias a los metadatos a nivel de columna que inyectamos. Nuestros científicos y analistas de datos ahora pueden usar consultas de jerga natural a través de AI/BI Genie para explorar datos, y nuestros paneles aprovechan los metadatos ricos para proporcionar visualizaciones e ideas más significativas.
La opción continúa proporcionando valía como una aparejo de sincronización continua, asegurando que a medida que nuestra documentación evoluciona en confluencia, esos cambios se reflejan en nuestro entorno de Databricks. Este plan demostró cómo los agentes de IA de AI cuidadosamente aplicados pueden resolver los desafíos complejos de gobernanza de datos a escalera empresarial, convirtiendo lo que parecía una tarea de documentación insuperable en una opción automatizada elegante.
¿Desea obtener más información sobre AI/BI y cómo puede ayudar a desbloquear el valía de sus datos? Aprenda más aquí.