Athrun Data Intelligence


La colaboración de datos es la columna vertebral de la innovación moderna en IA, especialmente cuando las organizaciones colaboran con socios externos para desbloquear nuevos conocimientos. Sin incautación, la privacidad de los datos y la protección de la propiedad intelectual siguen siendo desafíos importantes para permitir la colaboración y al mismo tiempo proteger los datos confidenciales.

Para cerrar esta brecha, los clientes de todas las industrias están utilizando Salas limpias de ladrillos de datos para ejecutar estudio compartidos sobre datos confidenciales y permitir una colaboración que dé prioridad a la privacidad.

Hemos recopilado a continuación las 10 preguntas más frecuentes sobre las Salas Blancas. Estos cubren qué son las Salas Limpias, cómo protegen los datos y la propiedad intelectual, cómo funcionan en nubes y plataformas, y qué se necesita para comenzar. Entremos.

1. ¿Qué es una “sala limpia de datos”?

Una sala limpia de datos es un entorno seguro donde usted y sus socios pueden trabajar juntos en datos confidenciales para extraer información útil, sin compartir los datos confidenciales sin procesar subyacentes.

En Databricks, usted crea una sala limpia, agrega los medios que desea usar y ejecuta solo cuadernos aprobados en el interior de un entorno retirado, seguro y gobernado.

Salas limpias de ladrillos de datos

2. ¿Cuáles son algunos ejemplos de casos de uso de salas blancas?

Las salas limpias son enseres cuando varias partes necesitan analizar datos confidenciales sin compartir sus datos sin procesar. Esto suele deberse a normas de privacidad, contratos o la protección de la propiedad intelectual.

Se utilizan en muchas industrias, incluidas la publicidad, la atención médica, las finanzas, el gobierno, el transporte y la monetización de datos.

Algunos ejemplos incluyen:

Publicidad y marketing: Resolución de identidad sin exponer PII, planificación y medición de campañas, monetización de datos para medios minoristas y colaboración de marca.

  • Socios como Epsilon, The Trade Desk, Acxiom, LiveRamp y Deloitte utilizan las salas blancas de Databricks para la resolución de identidades.

Servicios financieros: Los bancos, las aseguradoras y las compañías de tarjetas de crédito combinan datos para mejorar las operaciones, la detección y el estudio del fraude.

  • Ejemplos: Polímero MasterCard utiliza salas limpias para cotejar y analizar datos de PII para la detección de fraude; Intuir relaciona de forma segura los datos del prestatario con los prestamistas para encontrar prestatarios calificados.

Las salas limpias protegen los datos de los clientes al tiempo que permiten la colaboración y el ganancia de los datos.

3. ¿Qué tipos de activos de datos puedo compartir en una sala limpia?

Puede compartir una amplia tonalidad de activos administrados por Unity Catalog en Databricks Clean Rooms:

  • Mesas (Administrado, Extranjero y Extranjero): datos estructurados como transacciones, eventos o perfiles de clientes.
  • Vistas: porciones filtradas o agregadas de sus tablas.
  • Volúmenes: archivos como imágenes, audio, documentos o bibliotecas de códigos privados.
  • Cuadernos: Cuadernos SQL o Python que definen el estudio que desea ejecutar.

Así es como se ve en la actos:

  • A detallistaa marca de CPGy un empresa de investigación de mercado comparta vistas anónimas que incluyen: identificaciones de clientes con hash, métricas de ventas agregadas y datos demográficos regionales para analizar conjuntamente el valor de la campaña.
  • A plataforma de transmisión y un agencia de publicidad comparta tablas de impresiones de campaña y un cuaderno que calcula métricas de audiencia multiplataforma.
  • A costado y un socio de tecnología financiera comparta volúmenes que contengan modelos de ML de aventura y fraude y utilice un cuaderno para encuadrar conjuntamente los modelos manteniendo la privacidad de los registros individuales.

4. ¿Cómo se compara esto con Delta Sharing? ¿Por qué debería utilizar una habitación limpia?

Piénselo de esta guisa: Delta Sharing es la opción correcta cuando una parte necesita acercamiento de solo ojeada a los datos en su propio entorno y es aceptable para ellos ver los registros subyacentes.

Las salas limpias agregan un espacio seguro y controlado para el estudio de múltiples partes cuando los datos deben permanecer privados. Los socios pueden unir activos de datos, ejecutar código aceptado mutuamente y devolver solo los resultados en los que todas las partes estén de acuerdo. Esto resulta útil cuando debe cumplir estrictas garantías de privacidad o reconocer flujos de trabajo regulados. De hecho, los datos compartidos en salas limpias todavía utilizan el protocolo Delta Sharing entre bastidores.

Por ejemplo, un minorista podría utilizar Delta Sharing para darle a un proveedor acercamiento de solo ojeada a una tabla de ventas para que pueda ver cómo se venden los productos. El mismo par usaría una sala limpia cuando necesitan unir datos más ricos y sensibles de uno y otro lados (como características del cliente o inventario detallado), ejecutar cuadernos aprobados y solo compartir resultados agregados, como pronósticos de demanda o artículos de longevo aventura.

5. ¿Cómo se protegen los datos confidenciales y la propiedad intelectual en la sala limpia?

Las salas limpias están diseñadas para que sus socios nunca vean sus datos sin procesar o su IP. Sus datos permanecen en su propio catálogo de Unity y solo comparte activos específicos en la sala limpia a través de Delta Sharing, que está controlado por cuadernos aprobados.

Para hacer cumplir estas protecciones en una sala limpia:

  • Los colaboradores solo ven esquemas (nombres y tipos de columnas), no los datos reales a nivel de fila.
  • Solo los portátiles que usted y sus socios aprueben pueden ejecutarse en computación sin servidor en un entorno retirado.
  • Los portátiles escriben en tablas de salida temporales, de modo que usted controle exactamente lo que sale de la sala limpia.
  • El tráfico de red saliente está restringido mediante controles de salida sin servidor (SEG).
  • Para proteger la propiedad intelectual o el código propietario, puede empaquetar su deducción como una biblioteca privada, almacenarla en un prominencia de Unity Catalog y hacer relato a ella en cuadernos de sala limpia sin revelar su código fuente.

6. ¿Pueden los colaboradores de diferentes nubes unirse a la misma sala limpia?

Sí. Las salas limpias están diseñadas para la colaboración multinube y entre regiones, siempre que cada participante tenga un espacio de trabajo apoderado para Unity Catalog y Delta Sharing apoderado en su metastore. Esto significa que una ordenamiento que utiliza Databricks en Azure puede colaborar en una sala limpia con socios en AWS o GCP.

Colaboradores de Salas Blancas

7. ¿Puedo soportar datos de Snowflake, BigQuery u otras plataformas a una sala limpia?

Sí, absolutamente. Pacto de la casa del marisma expone sistemas externos como Snowflake, BigQuery y almacenes tradicionales como catálogos extranjeros en Catálogo de dispositivo (UC). Una vez que las tablas externas estén disponibles en UC, las comparte en la sala limpia de la misma guisa que comparte cualquier otra tabla o aspecto.

Así es como funciona en un nivel parada: usa Lakehouse Federation para crear conexiones y catálogos externos que exponen fuentes de datos externas en Unity Catalog, sin tener que copiar todos esos datos en Databricks. Una vez que esas tablas externas estén disponibles en Unity Catalog, puede compartirlas en una sala limpia como cualquier otra tabla o aspecto administrada por Unity Catalog.

8. ¿Cómo ejecuto un estudio personalizado de datos conjuntos?

Internamente de una sala limpia, se hace casi todo mediante cuadernos. Usted agrega un cuaderno SQL o Python que incluye el código para el estudio que desea, sus socios revisan y aprueban el cuaderno y luego se puede ejecutar.

Cómo ejecutar un análisis personalizado de datos conjuntos

Caso simple: es posible que tenga un cuaderno SQL que cuente los ID hash superpuestos entre las compras de un minorista y las impresiones de un socio de medios, y luego muestre el valor, la frecuencia y la conversión.

Más liberal: utiliza un cuaderno de Python para unir características de uno y otro lados, entrenar o encuadrar un maniquí con los datos combinados y escribir predicciones en una tabla de salida. El corredor aceptado ve los resultados, pero nadie ve los registros sin procesar del otro banda.

9. ¿Cómo funciona la colaboración multipartita?

En una sala limpia de Databricks, puede tener hasta 10 organizaciones (usted más 9 socios) trabajando juntas en un entorno seguro, incluso si se encuentran en diferentes nubes o plataformas de datos. Cada equipo escolta sus datos en su propio catálogo de Unity y solo comparte las tablas, vistas o archivos específicos que desean usar en la sala limpia.

Una vez que todos estén en el interior, cada parte puede proponer cuadernos de SQL o Python, y esos cuadernos necesitan aprobación antaño de ejecutarse, para que todas las partes se sientan cómodas con la deducción.

10. Entonces, todo eso suena perfectamente. ¿Cómo empiezo?

Aquí tienes una forma sencilla de emprender:

  • Verifique que su espacio de trabajo tenga habilitados Unity Catalog, Delta Sharing y computación sin servidor.
  • Cree un objeto de sala limpia en su metastore de Unity Catalog e invite a sus socios con sus identificadores de uso compartido.
  • Cada parte agrega los activos de datos y los cuadernos en los que desean colaborar.
  • Una vez que todos aprueben los cuadernos, ejecute su estudio y revise los resultados en su propio metastore.

Mira esto video para obtener más información sobre la creación de una sala limpia y cómo emprender.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *