Por qué se pierden datos confidenciales
A medida que las organizaciones escalan sus plataformas de datos, la información confidencial a menudo se esconde a simple perspectiva. Cada día aparecen nuevos temas, los panoramas regulatorios se vuelven cada vez más complejos y hay más en repertorio que nunca. Según el Mensaje de seguimiento del cumplimiento del RGPDlas multas del RGPD por sí solas superaron los 5.600 millones de euros en 2025, un crecimiento de 1.170 millones de euros desde 2024.
Los métodos de descubrimiento manual simplemente no escalan. Lo que funcionó para cientos de mesas defecto en miles. ¿El resultado? Puntos ciegos en materia de cumplimiento, auditorías costosas y estancamiento de la democratización de los datos. El problema fundamental es que simplemente no se puede proteger lo que no se puede encontrar.
Presentación de la clasificación de datos agentes
Hoy, nos complace anunciar la traducción preliminar pública de la clasificación de datos de Databricks en AWS, Azure Databricks y GCP.
La clasificación de datos utiliza un sistema de IA agente para descubrir y etiquetar automáticamente datos confidenciales en todos sus catálogos. Proporciona visibilidad continua de dónde reside la información de identificación personal (PII), lo que le permite cumplir con las normas, automatizar la protección y compartir datos con confianza entre equipos, incluso a medida que sus datos crecen.
La clasificación de datos ofrece una detección de PII integral y automatizada en nuestro entorno de datos en expansión, lo que garantiza que la información confidencial se identifique claramente y permite una protección consistente. Este enfoque no solo ayuda a proteger los activos confidenciales sino que incluso reduce las cargas de trabajo manuales. A medida que implementamos esto de modo más amplia, esperamos liberar a nuestros equipos para iniciativas de anciano valencia. — Gregg Rinsler, director sénior de gobernanza de datos, FanDuel
Convierta las auditorías manuales en visibilidad continua
Con la clasificación automatizada, sus equipos pueden acaecer de la clasificación manual a la gobernanza estratégica:
- Preparación para la auditoría: Obtenga registros completos para mostrar dónde reside la PII y exactamente qué usuarios y grupos tienen comunicación a ella.
- Pelaje completo: Rastree exactamente cuándo existe PII y cerca de dónde fluye. No se arriesgue a perderse puntos donde la PII se copió accidentalmente en conjuntos de datos posteriores.
- Solicitudes de aniquilación de datos: Localice y limpie todas las instancias de datos de usufructuario en todas sus tablas.
La moneda de cada equipo de datos es la confianza, que es «consistencia en el tiempo». La clasificación de datos ayuda a originar esa confianza al escanear nuestro patrimonio de datos en escudriñamiento de PII y automatizar los flujos de trabajo de remediación. El resultado son datos verificados y conformes en los que los equipos pueden dejarlo en Dios con confianza. — Sam Shah, vicepresidente de ingeniería, equipo de datos de Databricks

Cómo funciona la clasificación de datos
La clasificación de datos está diseñada para aplaudir una clasificación agente automatizada que cubra todos sus datos. Así es como lo hacemos:
IA agente para una clasificación precisa: Combina inspección de patrones comprobado, metadatos y modelos de estilo de gran tamaño con hasta un 60 % más de precisión que las herramientas que solo utilizan expresiones regulares. Sus datos nunca abandonan su entorno siguiendo los estándares de los controles de seguridad de Databricks AI (AWS | Azur | PCG).
Escaneo válido e inteligente para escalera empresarial: Escanea todo el catálogo una vez y luego solo vuelve a escanear tablas y columnas nuevas o modificadas. El género de Unity Catalog garantiza que los conjuntos de datos críticos se escaneen de forma incremental, lo que garantiza que la PII se capture tal como aparece. Desde nuestro tiro Beta auténtico, hemos mejorado significativamente la velocidad de detección y pequeño los costos de escaneo hasta en un 75%. Este sistema ha sido probado en batalla para asegurar un suspensión rendimiento a medida que crece su plataforma de datos.
Revisión y garra: Obtenga visibilidad completa de las columnas que contienen PII y quién tiene comunicación actualmente a estos datos. Nuestra interfaz de usufructuario de revisión enfocada muestra detecciones de entrada confianza con datos de muestra, lo que le permite aplicar etiquetas en masa fácilmente. Los resultados completos se almacenan en tablas del sistema para originar informes o etiquetado personalizados.
La clasificación de datos está transformando nuestro enfoque de cumplimiento al automatizar la detección de PII. Usamos resultados de clasificación yuxtapuesto con un flujo de trabajo de autorización a través de aplicaciones Databricks para habilitar controles de comunicación Just-In-Time. Esto nos permite proseguir los datos confidenciales accesibles solo cuando sea necesario. Eliminamos los esfuerzos manuales para conseguir esto y, en su puesto, creamos detección y protección automatizadas en todos nuestros datos que residen en la plataforma Databricks. — Abhijit Joshi, ingeniero de datos del personal, Oportun

Cree un control de comunicación escalable
Una vez que sepa dónde se encuentran los datos confidenciales, será más realizable protegerlos y el comunicación podrá escalarse de forma segura.
- Automatizar niveles de sensibilidad: Automatice los flujos de trabajo de solicitudes de comunicación existentes donde los usuarios son aprobados en función de la sensibilidad del conjunto de datos. Por ejemplo, utilice etiquetas de clasificación de datos para categorizar automáticamente las tablas según los niveles de sensibilidad de su ordenamiento (por ejemplo, confidencial, restringida, interna o pública).
-
Escale la gobernanza con políticas ABAC: Políticas de control de comunicación basado en atributos (ABAC) enmascare o cifre automáticamente columnas confidenciales. Por ejemplo, configure una política que enmascare todas las columnas etiquetadas como (nombre de clase), (dirección de correo electrónico de clase) y (número de teléfono de clase) para todos excepto para su equipo de seguridad. Una vez configurada, esta política se aplica automáticamente a los datos etiquetados como confidenciales, lo que garantiza una protección de datos consistente que se adapta a su negocio.

-
Utilice ABAC para rasgar el comunicación de forma segura: Considere la tabla de transacciones de clientes en el ejemplo previo, que puede contener columnas confidenciales (p. ej., nombre_cliente, correo electrónico, teléfono) y columnas no confidenciales (p. ej., columnas ID_transacción o id_cliente). Las políticas ABAC enmascaran solo las columnas confidenciales y dejan abiertos los campos no confidenciales. No es necesario rodear tablas enteras ni proseguir una deducción de perspectiva compleja.

¿Qué sigue?
Esto es lo que hay en nuestra hoja de ruta para los próximos meses:
- Soporte API y Terraform *Próximamente en perspectiva previa pública*
- Clasificadores regionales y de dominio específicos integrados como PHI y PCI *Próximamente en perspectiva previa pública*
- Reglas de clasificación personalizadas para patrones de datos específicos del negocio. Utilizamos sistemas de IA agentes para desarrollar patrones específicos para los datos de su empresa. *En perspectiva previa privada*
Comience hoy mismo con la perspectiva previa pública
¿Preparado para alterar procesos manuales en clasificación de datos automatizada? Comience con nuestros bienes a continuación:
- Lea la documentación de nuestro producto (AWS | Azur | PCG)
- El producto cumple con HIPAA y sigue los estándares de confianza y seguridad de las funciones de IA de Databricks. Lea más en nuestras preguntas frecuentes sobre seguridad aquí (AWS | Azur | PCG).
- Comuníquese con su representante de cuenta para registrarse en nuestros clasificadores personalizados Pinta previa privada
- Comience hoy y habilite la clasificación de datos desde cualquier pestaña de detalles del catálogo