El golpe sin interrupciones y seguros a los datos se ha convertido en uno de los mayores desafíos que enfrentan las organizaciones. En ninguna parte es esto más evidente que en las auditorías externas dirigidas por la tecnología, donde el prospección del 100% de los datos transaccionales se está convirtiendo rápidamente en el estereotipado de oro. Estas auditorías implican revisar decenas de miles de millones de líneas de datos de facturación financiera y operativa.
Para ofrecer información significativa a escalera, el prospección no solo debe ser robusto sino igualmente válido: el costo de compensación, el tiempo y la calidad para obtener los mejores resultados en los plazos ajustados.
Recientemente en colaboración con un importante proveedor de energía del Reino Unido, KPMG apalancó Delta Compartir en Databricks para aventajar los cuellos de botella de rendimiento, mejorar la eficiencia y mejorar la calidad de la auditoría. Este blog discute nuestra experiencia, los beneficios secreto y el impacto medible en nuestro proceso de auditoría desde el uso de Delta Sharing.
El desafío comercial
Para cumplir con los plazos de información financiera pública, necesitábamos consentir y analizar decenas de miles de millones de líneas de los datos de facturación de la entidad auditada interiormente de una breve ventana de auditoría.
Históricamente, confiamos en el entorno de prospección de la entidad auditada alojado en AWS PostgreSQL. A medida que crecieron los volúmenes de datos, la configuración mostró sus límites:
- Convexidad de datos: Nuestro enfoque requirió mirar más allá del período de auditoría para analizar datos históricos que fueran esenciales para la rutina. Como este conjunto de datos ha crecido significativamente año tras año, eventualmente excedió los límites de AWS PostgreSQL. Esto nos obligó a dividir los datos en dos bases de datos separadas, introduciendo gastos generales y costos operativos adicionales.
- Transferencia de datos: Mover y copiar datos de un entorno de producción a una almohadilla de datos PostgreSQL analítica ‘cercada’ ‘causó un aparición retrasado y una equivocación de frescura y agilidad.
- Degradación del rendimiento de la consulta: Si acertadamente PostgreSQL admite el paralelismo, no aprovecha múltiples núcleos de CPU al ejecutar una sola consulta, lo que lleva a un rendimiento subóptimo.
- Medios: Correcto a que el golpe al entorno analítico de la entidad se limitaba a sus activos, enfrentamos desafíos para hacer el mejor uso de nuestra multitud e incorporar rápidamente a los nuevos miembros del equipo.
Dadas estas restricciones, necesitábamos una decisión escalable y de stop rendimiento que permita el golpe válido y el procesamiento de datos sin comprometer la seguridad o la gobernanza, lo que permite un «tiempo de máquina» estrecho para resultados más rápidos.
¿Por qué Delta Compartir?
Delta Compartirun protocolo de intercambio de datos destapado, proporcionó la decisión ideal al habilitar el intercambio de datos multiplataforma seguro y válido entre KPMG y la entidad auditada sin duplicación.
En comparación con la extensión de PostgreSQL, Databricks ofreció varias ventajas distintas:
- Maneja grandes conjuntos de datos: Delta Sharing está diseñado para manejar los datos a escalera de petabyte, eliminando las limitaciones de rendimiento de PostgreSQL.
- Costos más bajos: Delta Compartir el almacenamiento estrecho y calcular los costos al compendiar la privación de replicación y transferencias de datos a gran escalera.
- Flexibilidad: Se pueden consentir a datos compartidos en Databricks utilizando todos Herramientas de Pyspark, SQL y BI como Power BI, facilitando la integración perfecta en nuestros entregables de auditoría.
- Tablas de delta: Podríamos «recorrer en el tiempo» a estados pasados de datos. Esto fue valioso para confirmar los puntos históricos que se perdieron previamente en el maniquí de datos del cliente.
Enfoque de implementación
Presentamos Delta Compartir de una modo que no interrumpió el trabajo de auditoría en curso:
- Intercambio de datos: Le dimos a la entidad una cinta (en formato JSON) de las tablas y vistas que necesitábamos. Utilizaron los trabajos de lakeflow y Delta Compartir para ponerlos a disposición directamente en nuestro entorno de Databricks. La entidad auditada proporcionó golpe compartiendo una secreto, otorgándonos permiso para consolidar estos conjuntos de datos previos a los conjuntos de datos con un esfuerzo minúsculo entre AWS y Azure. Delta Compartir manejó este intercambio de nubes cruzados de forma segura, sin copiar o mover los datos entre plataformas.
- Integración con el catálogo de la pelotón: El catálogo de Unity nos dio un solo puesto para mandar los permisos, aplicar políticas de gobierno y proseguir la visibilidad total de quién accedió a qué datos.
- Puesta al día de datos programados: Durante los ciclos de auditoría secreto, los datos se actualizaron para alinearse con los plazos de informes financieros.
- Optimización de rendimiento: Una vez interiormente de los Databricks, reelaboramos consultas de PostgreSQL para chocar SQL y Pyspark. Con Delta Compartir proporcionando datos gobernados y listos para usar, nos centramos en optimizar el rendimiento en puesto de mandar el movimiento de datos.

Impacto medible
Utilizamos Delta Sharing para consentir y analizar miles de millones de lecturas de medidores en millones de sus cuentas de clientes. Observamos. mejoras significativas en múltiples KPI:
- Consultas más rápidas: Delta Sharing nos permitió usar más potencia informática para tareas de big data. Algunas de nuestras consultas más complejas terminaron más del 80% más rápido, por ejemplo, pasando de 14.5 horas a 2.5 horas, comparadas con nuestro antiguo proceso Postgresql.
- Calidad de auditoría mejorada: Al suceder menos tiempo esperando máquinas, tuvimos más tiempo para centrarnos en excepciones, patrones inusuales y casos de borde complejos. Esto mejoró nuestros resultados de prospección de datos en 15 puntos porcentuales en algunos casos y redujo la carga de cualquier muestreo residual.
- Ahorros de costos: Al usar Delta Compartir, evitamos hacer copias adicionales de los datos. Esto significaba que solo almacenamos y procesamos lo que se necesitaba, lo que generó costos de almacenamiento y calculación.
- Camino más rápido: Cubo que los datos fueron aprovisionados a través del intercambio de Delta, se perdió menos tiempo esperando que estuviera ligero, lo que nos permitió comenzar a trabajar antaño.
- Equipo más factible de incorporación: Los nuevos miembros del equipo de incorporación sin problemas y una combinación más amplia de habilidades de codificación: SQL y Pyspark.
El uso de Delta Sharing ha afectado una diferencia trascendente en nuestro proceso de auditoría. Podemos consentir de forma segura a los datos a través de las plataformas en la aglomeración, sin retrasos o el movimiento manual de datos, por lo que nuestros equipos siempre trabajan desde la última fuente de verdad. Esta capacidad de aglomeración cruzada significa auditorías más rápidas, resultados más confiables para los clientes auditados con los que trabajamos y un control exacto sobre el golpe a los datos en cada paso. – Anna Barrell, socia de auditoría, KPMG UK
Consideraciones técnicas
Un par de consideraciones técnicas de trabajar con Databricks que deben considerarse:
• Compartir delta: Como los primeros usuarios, algunas características aún no estaban disponibles (por ejemplo, compartiendo vistas materializadas) aunque estamos entusiasmados de que estas estén ahora refinado con el impulso de GA Y mejoraremos nuestras soluciones de intercambio delta con esta funcionalidad.
• Trabajos del laguna: Actualmente, no hay un mecanismo para confirmar si se ha completado un trabajo subido para una tabla compartida delta. Un script se ejecutó antaño de la finalización y condujo a una salida incompleta, aunque esto se identificó rápidamente a través de nuestros procedimientos de integridad y precisión.
Mirando en dirección a el futuro
Delta Sharing ha demostrado ser un cambio de surtido para el prospección de datos de auditoría, lo que permite una colaboración válido, escalable y segura. Nuestra implementación exitosa con el proveedor de energía demuestra el valencia del intercambio delta para clientes con diversas fuentes de datos en la aglomeración y la plataforma.
Reconocemos que muchas organizaciones almacenan una parte significativa de sus datos financieros en SAP. Esto presenta una oportunidad adicional para aplicar los mismos principios de eficiencia y calidad a una escalera aún veterano.
A través de La asociación estratégica de Databricks con SAPanunciado en febrero de este año, ahora podemos consentir a los datos de SAP a través de Delta Sharing. Esta decisión conjunta, que se ha convertido en uno de los productos más vendidos de SAP en una lapso, nos permite explotar estos datos al tiempo que preservamos su contexto y sintaxis. Al hacerlo, podemos certificar que los datos permanezcan completamente gobernados por el catálogo de Unity y se optimice su costo total de propiedad. A medida que las entidades que auditamos progresan en su delirio de transformación, en KPMG estamos buscando explotar esta tracción, anticipando los beneficios adicionales que aportará a un proceso de auditoría optimizado.