Estamos emocionados de introducir una nueva alivio en la experiencia de búsqueda en Catálogo de Amazon Sagemakerparte de la próxima coexistentes de Amazon Sagemaker—Encreve la búsqueda de coincidencias utilizando identificadores técnicos. Con esta capacidad, ahora puede realizar búsquedas en gran medida específicas de activos como nombres de columnas, nombres de tabla, nombres de bases de datos y Amazon Redshift Nombres de esquema adjuntando los términos de búsqueda en un calificador como cotizaciones dobles (" "
). Esto produce resultados con precisión exacta, mejorando drásticamente la velocidad y la precisión del descubrimiento de datos.
En esta publicación, demostramos cómo optimizar el descubrimiento de datos con búsqueda de identificador técnico preciso en Estudio unificado de Amazon Sagemaker.
Resolver desafíos de descubrimiento del mundo positivo
En entornos grandes a escalera empresarial, descubrir el conjunto de datos correctos a menudo depende de identificar identificadores técnicos específicos. Los usuarios frecuentemente buscan términos exactos como "customer_id"
o "sales_summary_2023"
– Pero las palabras esencia convencionales y las búsquedas semánticas a menudo devuelven resultados relacionados, en puesto de la coincidencia exacta.
Con la nueva capacidad de búsqueda calificada, ingresar "customer_id"
Soprará solo aquellos activos cuyo nombre técnico coincida exactamente: eliminar el ruido, racionar tiempo y mejorar la confianza en el descubrimiento. Ya sea que sea un analista de datos que rastreo una métrica específica o una empresa de datos de datos que valida el cumplimiento de los metadatos, esta modernización ofrece una experiencia de búsqueda más precisa, gobernada e intuitiva.
Construido para catálogos complejos de ingreso escalera
Esta característica se base en las capacidades de búsqueda de palabras esencia y semánticas existentes en Sagemaker Unified Studio y agrega una importante capa de control para los clientes que administran catálogos de datos complejos con intrincadas convenciones de nombres. Al aminorar el tiempo dedicado a filtrar coincidencias parciales y mejorar la relevancia de los resultados, esta alivio agiliza los flujos de trabajo y ayuda a sustentar la calidad de los metadatos en los dominios.
Uno de esos clientes es Natwest, un líder bancario integral que opera en miles de activos:
«En nuestro arduo ecosistema de datos, descubrir los activos correctos es primordial. La complejidad, reduce el tiempo de búsqueda, minimiza los errores y fomenta la colaboración sin precedentes en nuestra ingeniería de datos, examen y equipos comerciales «.
– Manish Mittal, Data Marketplace Engineering Lead, NatWest
Beneficios esencia
Con esta nueva capacidad, los usuarios de catálogo de Sagemaker pueden:
- Localice rápidamente los activos de datos precisos – Búsqueda usando nombres técnicos conocidos, como
"customer_id"
o"revenue_code"
– Para superficie inmediatamente los conjuntos de datos correctos sin tamizar a través de resultados irrelevantes. - Estrechar falsos positivos y partidos ambiguos – Aliviar la confusión causada por las palabras esencia o las búsquedas semánticas que devuelven los resultados de igualdad, mejorando la confianza en la experiencia de búsqueda.
- Acelerar la productividad en los roles de datos – Los analistas, los administradores e ingenieros pueden encontrar lo que necesitan más rápido, reduciendo los retrasos en los ciclos de informes, fuerza y mejora.
- Proteger la gobernanza y el cumplimiento – Superficie y valide los estándares críticos de nomenclatura y los metadatos (por ejemplo, columnas prefijadas con
"pii_"
o"audit_"
Devolverá todos los nombres de columnas que comienzan con PII o auditoría) para hospedar la aplicación de políticas y la preparación de auditorías.
Ejemplo de casos de uso
Esta característica puede ayudar a los siguientes roles en diferentes casos de uso:
- Analistas de datos – Un analista de negocios que prepara un crónica de examen de ganancia buscando rastreo
"profit_margin"
Para situar el campo exacto en múltiples conjuntos de datos de ventas. Esto reduce el tiempo de apariencia y se asegura de que la métrica correcta se use en los informes. - Administradores de datos – Un líder de gobierno rastreo términos como
"audit_log"
o"classified_pii"
Para confirmar que todas las clasificaciones requeridas y las convenciones de registro están en su puesto. Esto ayuda a aplicar políticas de manejo de datos y validar la vitalidad del catálogo. - Ingenieros de datos – Un ingeniero de plataforma realiza una búsqueda de
"temp_"
o"backup_"
Identificar y apañar los activos no utilizados o heredados creados durante los flujos de trabajo de extracto, transformación y carga (ETL). Esto admite la optimización de costos de higiene de datos e infraestructura.
Demostración de posibilidad
Para demostrar la posibilidad exacta del filtro de coincidencia, hemos ingerido un activo individual cargado desde el TPC-DS Tablas y igualmente crearon la agrupación de productos de datos de activos.
La sucesivo captura de pantalla muestra un ejemplo del producto de datos.
La sucesivo captura de pantalla muestra un ejemplo de los activos individuales.
A continuación, el analista de datos desea agenciárselas en todos los activos que tienen detalles de inicio de sesión del cliente. El inicio de sesión del cliente se almacena como el "c_login"
campo en los activos.
Con la función Identificador técnico, el analista de datos rastreo directamente en el catálogo con el identificador "c_login"
Para obtener los resultados requeridos, como se muestra en la sucesivo captura de pantalla.
El analista de datos puede efectuar que la información de inicio de sesión esté presente en el resultado devuelto.
Conclusión
La añadidura de la búsqueda de identificador técnico preciso en Sagemaker Unified Studio refuerza un paso para mejorar el descubrimiento de datos y la usabilidad en los ecosistemas de datos complejos. Al proporcionar capacidades de búsqueda basadas en identificadores técnicos, esta característica aborda las micción de los interesados diversos, lo que les permite situar de modo capaz los activos que requieren.
A medida que los datos continúan creciendo en escalera y complejidad, Sagemaker Unified Studio sigue comprometido con la entrega de características que simplifican la gobierno de datos, mejoran la productividad y permiten a las organizaciones desbloquear ideas procesables. Comience a usar esta capacidad de búsqueda mejorada hoy y experimente la diferencia que aporta a su delirio de descubrimiento de datos.
Consulte el documentación del producto Para obtener más información sobre cómo configurar las reglas de metadatos para los flujos de trabajo de suscripción y publicación.
Sobre los autores
Ramesh H Singh es un directivo de producto senior técnico (servicios externos) en AWS en Seattle, Washington, actualmente con el equipo de Amazon Sagemaker. Le apasiona la construcción de productos de analíticos y ML de parada rendimiento que permiten a los clientes empresariales alcanzar sus objetivos críticos utilizando tecnología de vanguardia. Conéctate con él en LinkedIn.
Pradeep misra es un arquitecto principal de soluciones de examen en AWS. Trabaja en Amazon para el arquitecto y diseña soluciones modernas de examen de examen y AI/ML. Le apasiona resolver los desafíos de los clientes utilizando datos, examen y IA/ML. Fuera del trabajo, a Pradeep le gusta explorar nuevos lugares, probar nuevas cocinas y competir juegos de mesa con su grupo. Igualmente le gusta hacer experimentos científicos, construir Legos y ver anime con sus hijas.
Rajat Mathur es directivo de mejora de software en AWS, liderando los equipos de ingeniería de estudio unificados de Amazon Datazone y Sagemaker. Su equipo diseña, construye y opera servicios que hacen que sea más rápido para los clientes catalogar, descubrir, compartir y mandar los datos. Con una profunda experiencia en la creación de sistemas de datos distribuidos a escalera, Rajat juega un papel esencia en el avance de las capacidades de examen de datos de AWS y capacidades de IA/ML.
Jie Lan es ingeniero de software en AWS con sede en Nueva York, donde trabaja en el equipo de Amazon Sagemaker. Le apasiona desarrollar soluciones de vanguardia en los big data y el espacio de IA, lo que ayuda a los clientes a utilizar la tecnología en la cirro para resolver problemas complejos.