Athrun Data Intelligence


Servicio de Amazon OpenSearch Proporciona instantáneas por hora automatizadas como un mecanismo crítico de copia de seguridad y recuperación para los datos del cliente. Estas instantáneas sirven como copias de seguridad de punto en el tiempo que puede usar para restaurar sus dominios de OpenSearch a un estado susodicho, lo que ayuda a asegurar la durabilidad de los datos y la continuidad del negocio. Si acertadamente esta funcionalidad es esencial, es igualmente importante que el proceso de instantánea funcione sin problemas sin afectar las operaciones centrales del dominio. El flujo de trabajo de la instantánea debe ser lo suficientemente capaz como para amparar un rendimiento perfecto de las operaciones de búsqueda e indexación, preservar la capacidad del dominio para medrar con cargas de trabajo en crecimiento y permitir la estabilidad normal del clúster.

En esta publicación de blog, le decimos cómo mejoramos la eficiencia de la instantánea en el servicio Amazon OpenSearch mientras mantenemos cuidadosamente estos aspectos operativos críticos. Estas optimizaciones de instantáneas están habilitadas para todos los dominios de la comunidad OpenSearch Optimized Instance Family (OR1, OR2, OM2) desde la interpretación 2.17 en delante.

Fondo

En el mecanismo de instantánea tradicional de OpenSearch, el proceso implica cargar archivos de segmento incremental de cada fragmento a Amazon Simple Storage Service (Amazon S3). El flujo de trabajo comienza cuando el nodo del administrador de clúster inicia la creación de instantáneas y coordina con los nodos que contienen fragmentos primarios para capturar sus respectivas instantáneas. A lo amplio de este proceso, los nodos de datos se comunican continuamente con el nodo del administrador de clúster para informar el progreso de su instantánea. Para proporcionar resiliencia contra los fracasos del líder, el estado del clúster mantiene el seguimiento detallado de todas las instantáneas en progreso. Este estado se comparte con todos los nodos de datos. Sin secuestro, este enfoque introduce una sobrecarga de comunicación significativa, especialmente en implementaciones a gran escalera.

Considere un clúster con nodos M y N fragmentos primarios. Cada operación de instantánea requiere al menos las actualizaciones de estado del clúster N, con las llamadas de transporte m*N que fluyen en torno a y desde el nodo del administrador del clúster a los nodos de datos (que comprende una puesta al día de estado de clúster para cada fragmento primario y llamadas de transporte M para cada puesta al día), como se muestra en el subsiguiente diagrama. En grandes dominios con cientos de nodos y miles de fragmentos, este patrón de comunicación intensivo puede cansar el nodo del administrador de clúster, lo que impacta su capacidad para manejar otras tareas críticas de mandato de clúster.

Instantánea tradicional

La comunidad de instancias optimizada de OpenSearch introdujo un avance significativo en la durabilidad de los datos y la eficiencia de las instantáneas. Construido para entregar un suspensión rendimiento con 11 nueves de durabilidad, las instancias optimizadas de OpenSearch mantienen una copia de todos los datos indexados en Amazon S3. Este diseño arquitectónico eliminó la escazes de retornar a cargar los datos durante la creación de instantáneas. En cambio, el sistema hace relato al punto de control de datos existente en los metadatos de instantánea. Los puntos de control de datos rastrean el estado de los datos sobre fragmentos en un momento cedido para ayudar a asegurar la consistencia y la durabilidad. Incluso evitamos la higienización de datos de Amazon S3 que se hace relato en los metadatos de la instantánea. Este enfoque hizo que las instantáneas fueran sustancialmente más livianas y más rápidas en comparación con el método convencional.

El flujo de instantánea mejorado con las instancias optimizadas de OpenSearch, incluso indicación Snapshot V1 poco profunda, gestiona la relato de punto de control creando archivos de retiro explícitos para cada punto de control de un fragmento determinado. Este flujo se ilustra en el subsiguiente diagrama donde en el cuarto paso, en oportunidad de cargar datos de segmentos, cargamos un archivo de retiro de punto de control.

Instantánea poco profunda v1

Si acertadamente este enfoque abordó con éxito el problema de exceso de datos reemplazando las cargas de datos del segmento con la creación de archivos de retiro de punto de control, introdujo su propio conjunto de desafíos. La sobrecarga de comunicación entre los nodos permaneció sin cambios durante las operaciones de creación y exterminio de instantáneas. Encima, el sistema crea archivos de retiro para cada fragmento en cada instantánea, independientemente de si el fragmento recibe tráfico activo o no. Esta opción de diseño generó un número excesivo de llamadas remotas de tiendas para crear un archivo de retiro por fragmento durante las operaciones de instantáneas, lo que es particularmente problemático para dominios OpenSearch más grandes.

Instantánea poco profunda revisada (V2)

En su núcleo, la instantánea V2 V2 reinventa cómo manejamos la copia de seguridad de datos en OpenSearch. La instantánea V2 Shallow adopta un enfoque más inteligente al implementar un sistema de relato basado en la marca de tiempo que reduce la duplicación de datos al tiempo que elimina la sobrecarga de comunicación. En la instantánea V2, como se muestra en el subsiguiente diagrama, en oportunidad de colocar un retiro expreso en el archivo de punto de control remoto de un fragmento, coloca un retiro implícito basado en la marca de tiempo de la instantánea y del archivo de punto de control. Hacemos un seguimiento de estas marcas de tiempo de instantánea en archivos de marca de tiempo fijados y los subimos a la tienda remota. Con este retiro implícito, los puntos de control que coinciden con las marcas de tiempo en los archivos de marca de tiempo fijados no se limpian de Amazon S3. Con este cambio arquitectónico, los nodos de datos no necesitan despachar actualizaciones de fragmentos al administrador de clúster, evitando las actualizaciones posteriores del estado del clúster. El proceso de restauración de instantáneas funciona leyendo un archivo de marca de tiempo fijado correspondiente a su instantánea, que ayuda al nodo de datos a ubicar y descargar la interpretación correcta de datos de Amazon S3.

Beneficios secreto

Exploremos las principales ventajas de usar Snapshot V2 superficial.

Mejoras de rendimiento

Los beneficios de rendimiento de la instantánea v2 V2 son sustanciales y multifacéticos. Al minimizar la cantidad de datos que deben cargarse en el almacén remoto y el número de actualizaciones de estado de clúster que deben comunicarse entre los nodos durante la creación de instantáneas, el sistema reduce significativamente las operaciones de E/S y red. Esta reducción se traduce en tiempos de creación de instantáneas más rápidos y una pequeño utilización de bienes del sistema durante las operaciones de copia de seguridad.

Las evaluaciones que se muestran en la subsiguiente tabla se realizaron para evaluar la influencia en las operaciones de instantáneas cuando el dominio experimenta una carga significativa.

Configuración de dominio Tiempo de creación de instantáneas
Número de nodos Número de fragmentos Tradicional Instantánea poco profunda v1 Instantánea poco profunda v2
10 100 15-20 minutos 1–2 minutos <1 segundo
10 10,000 30–40 minutos 5-10 minutos <5 segundos
100 100,000 > 1 hora > 1 hora <10 segundos

Escalabilidad

Con un número fijo de llamadas de comunicación entre nodo durante la creación de instantáneas, el tiempo de creación de instantáneas es de un solo dígito, incluso a medida que crece el nodo, el índice y el recuento de fragmentos. Cuando se probó en 1,000 nodos en un dominio de servicio de Amazon OpenSearch, se observó un tiempo de creación de instantánea V2 poco profundo entre 10-20 segundos. Para las organizaciones que administran grandes dominios de servicio de Amazon OpenSearch, la instantánea v2 de Shallow ofrece ventajas particulares. El costo de almacenamiento corto de la instantánea poco profunda y los tiempos de creación de instantáneas más rápidos de la instantánea poco profunda V2 permiten amparar copias de seguridad más frecuentes sin bienes de almacenamiento abrumadores o impactar el rendimiento del sistema.

Simplificación arquitectónica

Las mejoras arquitectónicas en la instantánea v2 V2 van más allá de la optimización del rendimiento. La nueva implementación presenta una colchoneta de código más optimizada y mantenible, reduciendo el esfuerzo necesario para depurar problemas e implementar mejoras futuras. La edificación simplificada reduce la complejidad de la instantánea y el proceso de restauración, lo que lleva a operaciones más confiables y menos puntos potenciales de equivocación para casos de uso que requieren copias de seguridad frecuentes, como escenarios o entornos de explicación basados ​​en el cumplimiento. Esto significa que puede establecer un Objetivo del punto de recuperación para la recuperación de desastres. El manejo capaz de los cambios incrementales de la instantánea posible V2 permite amparar más horarios de respaldo granulares sin penalizaciones de rendimiento.

Eficiencia de almacenamiento

La piedra angular de la instantánea V2 es su enfoque renovador para la mandato del almacenamiento. En oportunidad de crear múltiples copias de datos sin cambios, el sistema mantiene referencias inteligentes a los bloques de datos existentes. Este mecanismo implícito de conteo de relato basado en la marca de tiempo evita crear bloqueos explícitos por fragmento. En los entornos donde los bienes de almacenamiento son premium, la eficiencia de almacenamiento de la instantánea v2 V2 puede conducir a un parquedad significativo de costos. El enfoque basado en relato ayuda a asegurar un uso perfecto del espacio de almacenamiento adecuado al tiempo que mantiene una cobertura de respaldo integral.

Mirando en torno a el futuro

La preparación de la instantánea v2 de superficie marca el aparición de nuestro delirio en torno a soluciones de respaldo de datos más eficientes. Sobre la colchoneta del situación creado por la instantánea V2 poco profunda, podemos implementar características adicionales como la recuperación de punto en el tiempo (PITR), una mejor integración de estado del clúster y diversas optimizaciones de rendimiento.

Conclusión

La instantánea v2 de Shallow representa un avance significativo en las capacidades de copia de seguridad de OpenSearch. Al combinar la eficiencia de almacenamiento, el rendimiento mejorado y la simplificación arquitectónica, proporciona una posibilidad robusta para los desafíos modernos de copia de seguridad de datos. Si está utilizando un tipo de instancia de la comunidad de instancias optimizada, la instantánea V2 incluso está habilitada para usted. Ya sea que esté utilizando un dominio a gran escalera o que esté trabajando en el interior de las limitaciones de almacenamiento, la instantánea V2 de superficie ofrece beneficios tangibles para sus dominios de servicio de Amazon OpenSearch.


Sobre los autores

Col rizada de sachin es ingeniero senior de explicación de software en AWS trabajando en OpenSearch.

Bukhtawar khan es un ingeniero principal que trabaja en el servicio Amazon OpenSearch. Está interesado en construir sistemas distribuidos y autónomos. Es un mantenedor y un contribuyente activo a OpenSearch.

Gaurav Bafna es un ingeniero de software senior que trabaja en OpenSearch en Amazon Web Services. Está fascinado por resolver problemas en sistemas distribuidos. Es un mantenedor y un contribuyente activo a OpenSearch.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *