En pocas palabras: Iceberg es metadatos. Los archivos de datos se rastrean individualmente, en puesto de a nivel de directorio, mediante archivos manifiestos, listas manifiestas y archivos de metadatos. Esta capa de metadatos perfectamente coordinada significa que el iceberg no es víctima de algunos de los problemas más perniciosos que otros formatos de mesa comunes (p. Ej.
¿Por qué deberías preocuparte por Iceberg?
Sin adoptar tablas de iceberg, los equipos de datos se ven obligados a llevar un tiempo y medios significativos en la trámite de migraciones y gobernanza antiguamente de poder capturar las oportunidades que ofrecen las nuevas tecnologías y soluciones. Iceberg elimina esta compensación. Al ofrecer un formato de almacenamiento totalmente interoperable que permite a los ingenieros de datos poseer y controlar su capa de almacenamiento, Iceberg proporciona la flexibilidad para beneficiarse cualquier plataforma de datos moderna compatible o motor de enumeración. Esto significa que los equipos de datos pueden ir de idea a impacto en un tiempo récord, sin compromiso, y ofrecer impacto a la velocidad de la demanda de las empresas de hoy.
Así es como los equipos de datos pueden beneficiarse de su almohadilla a sus arquitecturas Open Lakehouse en las mesas de iceberg:
-
Veterano productividad del desarrollador: Iceberg permite a los desarrolladores e ingenieros de datos trabajar como si estuvieran utilizando una almohadilla de datos relacional en serie como Postgres, pero pueden prosperar a los petabytes de datos.
-
Capacidad para escribir una vez, lea en todas partes: Iceberg es compatible con todas las últimas herramientas de descomposición sin migración. Cambiar motores o usar múltiples motores al mismo tiempo sin penalización.
-
Computo más rápido: La capa de metadatos de Iceberg está optimizada para el almacenamiento en la estrato, lo que permite la poda de archivo y partición anticipada con una sobrecarga mínima de IO.
Oportuno a que es un en serie de código campechano, habitable para cualquier aparejo o motor para guarecer y beneficiarse, Iceberg puede traer estas increíbles ganancias a cualquier ordenamiento. En última instancia, esta transigencia es una trofeo para ti.
Siendo más campechano-dispuesto
El copo de cocaína siempre ha Pon a sus usuarios primero. A medida que la tecnología continúa evolucionando, Snowflake continúa priorizando a sus clientes al apoyar las iniciativas de código campechano. Los beneficios son claros: cuando los usuarios tienen opciones, ganan. Este compromiso con el código campechano está subrayado por las contribuciones de Snowflake a Iceberg para permitir la trámite competente de datos de datos gobernados con cambio del esquema, partición y trámite de transacciones.
Si perfectamente Iceberg especifica cómo deberían comportarse los catálogos, la comunidad de iceberg se ha mantenido muy intencionalmente alejado de proporcionar uno. Regalado que el catálogo administra los metadatos de la tabla y ayuda a asegurar la consistencia entre múltiples lectores y escritores, esta abandono de un catálogo estandarizado creó el peligro de reintroducir el iceberg de Offs. Específicamente, nuevamente obligaría a las organizaciones a osar entre dos opciones: implementar, gobernar y proseguir un catálogo o beneficiarse una opción de proveedor con el potencial de bloquearse nuevamente, nuevamente. Al ver esta brecha, Snowflake se duplicó en su compromiso de cascar estándares y ampliación impulsado por la comunidad mediante la construcción y luego abre un catálogo de iceberg y contribuyendo a la Apache Software Foundation, ahora conocida como Apache Polaris (incubación), en julio de 2024.
Polaris es un catálogo de iceberg de código campechano totalmente destacado. Es el proveedor neutro por diseño, y la estructura de gobierno de la Polaris y el ampliación impulsado por la comunidad aseguran que siga siendo así. La implementación de Polaris de la API REST de Iceberg ayuda a asegurar la consistencia entre múltiples lectores y escritores y proporciona un medio para desempolvar atómicamente tablas de un estado a otro.
No detenerse allí, Polaris además proporciona un medio centralizado para reforzar los datos de una ordenamiento. Inicialmente creado como un catálogo de iceberg interoperable, el Polaris hoja de ruta Ahora incluye soporte para una viso más amplia de formatos de datos y tipos de objetos de datos para ayudar a asegurar que los usuarios puedan catalogar todos sus datos de un solo puesto.
Construyendo un Data Open Lakehouse
El objetivo de Snowflake es ayudar a las organizaciones a establecer y acelerar sus ambiciones abiertas de Lakehouse para que puedan desbloquear más impacto con menos complejidad.
Inicio:
-
Comience a activar los datos almacenados en un proveedor de almacenamiento en la estrato, sin interrupción, por Creación de tablas de iceberg directamente a partir de archivos parquet existentes en copo de cocaína.
-
Aplicar Controles integrales de seguridad y gobernanza adentro de la plataforma de copo de cocaína a través del catálogo de Horizon.
-
Tramitar el llegada seguro de varios motores con el catálogo campechano de Snowflakeun servicio totalmente administrado para Polaris que preserva la opción de autogobierno mediante el mantenimiento de los controles de llegada basados en roles (RBAC), espacios de nombres y definiciones intactas, independientemente de dónde se aloje el catálogo, casi eliminando la complejidad de la migración.
Adicionalmente, el motor de datos elástico de Snowflake cero-OPS continúa evolucionando con capacidades diseñadas premeditadamente para mejorar el rendimiento de la consulta y la eficiencia de las tablas de iceberg. Los clientes obtienen beneficios como técnicas de poda mejoradasque reducen las solicitudes de almacenamiento en la estrato y acelera la ejecución de consultas, y Exploración adaptativaque desbloquea una ejecución más rápida de consultas de escaneo pesado. Estas capacidades están disponibles fuera de la caja, sin la indigencia de advenir por una nueva implementación, desbloqueando así un mejor rendimiento al tiempo que reduce la sobrecarga operativa.
Mira como como Whoop está reinventando su edificación de datos Con Snowflake e Iceberg, ahorrando 20 horas de calcular todos los días y mejorando la accesibilidad de datos en toda la ordenamiento.
Obtenga más información