Almacenamiento Snowflake para mesas Apache Iceberg™: Interoperabilidad simple de Snowflake

La promesa de una «casa del albufera abierta» siempre ha sido una cuestión de selección: de darle a cada equipo la posibilidad de usar su motor preferido, ya sea Snowflake o no.

Pero a medida que las organizaciones adoptan Apache Iceberg™ como formato de datos interoperable, ha surgido un nuevo cuello de botella. Si acertadamente el formato de los datos está amplio, el depósito de almacenamiento suele permanecer «autogestionado». Esto introduce un impuesto operante oculto: los equipos dedican demasiado tiempo a configurar, establecer políticas de depósitos en la cúmulo y realizar mantenimientos de almacenamiento riesgosos.

Hoy, nos complace anunciar que Snowflake Storage para tablas Apache Iceberg™ en AWS y Azure está adecuado públicamente. Esta interpretación ofrece lo mejor de los dos mundos: la interoperabilidad total de Apache Iceberg con la resiliencia, el rendimiento y la experiencia de dependencia cero integrados del almacenamiento Snowflake.

Aniquilación de la carga de almacenamiento autogestionado

Durante abriles, los clientes de Snowflake han disfrutado de la simplicidad de acumular datos en Snowflake. No se preocupa por dónde se encuentran los archivos, cómo se cifran o cómo se rastrean los metadatos. «Simplemente funciona».

Sin requisa, a medida que crecen los requisitos de múltiples motores, muchos arquitectos se sienten obligados a adoptar arquitecturas de almacenamiento autoadministradas para que sus datos sean accesibles a herramientas externas. Este cambio a menudo viene acompañado de una pronunciada curva de enseñanza. En un entorno autogestionado, el ingeniero de datos es responsable del trabajo pesado: configurar roles IAM complejos, establecer el enigmático a nivel de depósito y avalar que cada motor forastero permanezca sincronizado con la última interpretación de la tabla.

Snowflake Storage para mesas Apache Iceberg™ elimina esta fricción. Ahora puede encajar tablas Iceberg directamente en la infraestructura administrada de Snowflake. Para sus administradores, se ve y se siente como cualquier otro cantidad que almacene en Snowflake; para sus clústeres externos Spark o Trino, aparece como una tabla Iceberg normalizado de detención rendimiento. Por fin puede afirmar sí a todos los consumidores de datos sin heredar la pesadilla del almacenamiento autogestionado.

Tranquilidad incorporada: integridad de los datos como servicio

La transigencia no debería significar fragilidad. Uno de los mayores riesgos del almacenamiento autogestionado es la error de una red de seguridad incorporada.

El coste de un solo error

Considere un atmósfera global: un ingeniero de datos tiene la tarea de robar datos «antiguos» en un depósito S3 autoadministrado para atesorar en costos de almacenamiento. Accidentalmente configuran mal una política de ciclo de vida de la cúmulo o ejecutan un script de inocencia que elimina una carpeta de metadatos críticos o un conjunto de archivos de manifiesto a los que todavía hace narración la interpretación contemporáneo de la tabla.

En una configuración tradicional de Iceberg autogestionada, este error suele ser catastrófico. Sin un mecanismo de recuperación integrado, la tabla se vuelve inconsistente. Los motores devolverán errores o, peor aún, devolverán resultados de consulta incompletos. Recuperar ese estado manualmente puede aceptar horas, si no días, de trabajo forense, si es que es posible.

La red de seguridad del copo de cocaína

Con Snowflake Storage para tablas Apache Iceberg™, aportamos nuestra resiliencia de nivel empresarial al ecosistema Iceberg:

A prueba de fallos: Proporcionamos una ventana de recuperación gestionada de siete días. Si los metadatos se dañan o eliminan accidentalmente, Snowflake puede ayudar a restaurar los metadatos a un estado consistente adentro de la ventana de recuperación, un mecanismo de resiliencia de datos integrado que está lejano en el almacenamiento autoadministrado.

Replicación entre nubes: Las funciones de continuidad del negocio están integradas. Puede replicar sin problemas sus datos de Iceberg en todas las regiones y nubes, brindando incorporación disponibilidad incluso durante interrupciones a nivel de proveedor.

Al establecer la capa de almacenamiento, Snowflake otorga a sus datos interoperables la misma construcción de durabilidad que las tablas internas más críticas almacenadas en Snowflake.

Interoperabilidad optimizada en toda la pila

Creemos que acumular datos es sólo la centro de la batalla; la otra centro está preparando datos para que estén «listos para funcionar» para cada motor que los toque.

Un problema global en Lakehouse es el «problema de archivos pequeños», donde las escrituras frecuentes crean miles de archivos pequeños que degradan el rendimiento de las consultas en todos los motores. Tradicionalmente, resolver esto requería comandos manuales VACUUM o REORG y monitoreo constante.

Snowflake Storage aborda esto a través de optimización inteligente de tablas. Esta característica actúa como un «piloto involuntario» en segundo plano para su almacenamiento, manejando automáticamente tareas como la compactación y agrupación de archivos.

Adicionalmente, todas las tablas están optimizadas para obtener el mejor rendimiento en Snowflake. Pero no nos detuvimos allí. Para impulsar una mejor interoperabilidad en toda la pila, proporcionamos perillas que permiten a los ingenieros de datos ajustar el diseño del almacenamiento para sus deposición específicas. Al ajustar la configuración del tamaño de los archivos y los esquemas de partición, puede optimizar los datos que escribe Snowflake para los patrones de escaneo específicos de motores externos, como Spark o Trino.

El resultado es un rendimiento mejorado en todas las cargas de trabajo. Snowflake distribuye los datos de forma óptima respetando su configuración, reduciendo la latencia de las consultas y mejorando la eficiencia en todo su ecosistema de datos.

Toda la interoperabilidad, falta de complejidad

Snowflake Storage para tablas Apache Iceberg™ es para organizaciones que desean centrarse en la organización de datos, no en el mantenimiento del almacenamiento. Al permitir que Snowflake administre la plomería, obtendrá una colchoneta de datos segura, optimizada y resistente que está abierta a cualquier motor que elija.

Empezando

Crear una tabla Iceberg en Snowflake Storage es tan simple como crear una tabla nativa normalizado. Para crear su primera tabla Iceberg utilizando el almacenamiento administrado por Snowflake, simplemente ejecute:

Etiquetado almacenamiento, Apache, Iceberg, interoperabilidad, mesas, para, simple, Snowflake