Extraiga información en una carga de trabajo de series temporales de 30 TB con Amazon OpenSearch Serverless

En el panorama contemporáneo basado en datos, ordenar y analizar grandes cantidades de datos, especialmente registros, es crucial para que las organizaciones obtengan conocimientos y tomen decisiones informadas. Sin incautación, manejar grandes cantidades de datos mientras se extraen conocimientos es un desafío importante, lo que lleva a las organizaciones a despabilarse soluciones escalables sin la complejidad de la administración de infraestructura.

Amazon OpenSearch sin servidor reduce la carga del aprovisionamiento y escalado manual de la infraestructura y, al mismo tiempo, le permite ingerir, analizar y visualizar sus datos de series temporales, simplificando la administración de datos y permitiéndole obtener información procesable a partir de los datos.

Recientemente anunciamos un nuevo nivel de capacidad de 30 TB para datos de series temporales por cuenta por región de AWS. La capacidad informática de OpenSearch Serverless para la ingesta de datos y la búsqueda/consulta se mide en unidades informáticas OpenSearch (OCU), que se comparten entre varias colecciones con el mismo Servicio de delegación de claves de AWS (AWS KMS) picaporte. Para acomodar conjuntos de datos más grandes, OpenSearch Serverless ahora admite hasta 500 OCU por cuenta por región, cada una para indexación y búsqueda respectivamente, más del doble del final susodicho de 200. Puede configurar los límites máximos de OCU en búsqueda e indexación de forma independiente, lo que le brinda la tranquilidad de administrar los costes de forma eficaz. Además puede monitorear el uso de OCU en tiempo vivo con Amazon CloudWatch métricas para obtener una mejor perspectiva del consumo de capital de su carga de trabajo. Con la compatibilidad con conjuntos de datos de 30 TB, puede analizar datos en el nivel de 30 TB para desbloquear información operativa valiosa y tomar decisiones basadas en datos para solucionar problemas de tiempo de inactividad de las aplicaciones, mejorar el rendimiento del sistema o identificar actividades fraudulentas.

Esta publicación analiza cómo se pueden analizar conjuntos de datos de series temporales de 30 TB con OpenSearch Serverless.

Innovaciones y optimizaciones para hospedar datos de decano tamaño y respuestas más rápidas

Disponer de suficientes capital de disco, memoria y CPU es fundamental para manejar una gran cantidad de datos de forma eficaz y realizar prospección exhaustivos. Estos capital no sólo son beneficiosos sino cruciales para nuestras operaciones. En las colecciones de series temporales, el disco OCU normalmente contiene fragmentos más antiguos a los que no se accede con frecuencia, denominados fragmentos calientes. Hemos introducido una nueva característica emplazamiento captación previa de recuperación de fragmentos en caliente. Esta característica monitorea activamente los bloques de datos consultados recientemente en sondeo de un fragmento. Les da prioridad durante los movimientos de fragmentos, como el invariabilidad de fragmentos, el escalado erecto y las actividades de implementación. Más importante aún, acelera el escalado obligatorio y proporciona una preparación más rápida para distintas cargas de trabajo de búsqueda, lo que perfeccionamiento significativamente el rendimiento de nuestro sistema. Los resultados proporcionados más delante en esta publicación brindan detalles sobre las mejoras.

Unos pocos clientes selectos trabajaron con nosotros en la acogida temprana ayer de la disponibilidad genérico. En estas pruebas, observamos una perfeccionamiento de hasta un 66 % en el rendimiento de las consultas activas para algunas cargas de trabajo de clientes. Esta importante perfeccionamiento muestra la poder de nuestras nuevas funciones. Encima, hemos mejorado la concurrencia entre los nodos coordinador y trabajador, lo que permite procesar más solicitudes a medida que aumentan las OCU mediante el escalado obligatorio. Esta perfeccionamiento ha poliedro como resultado una perfeccionamiento de hasta un 10 % en el rendimiento de las consultas para consultas activas y tibias.

Hemos mejorado la estabilidad de nuestro sistema para manejar colecciones de series temporales de hasta 30 TB de forma efectiva. Nuestro equipo está comprometido a mejorar el rendimiento del sistema, como lo demuestran nuestras mejoras continuas al sistema de escalado obligatorio. Estas mejoras incluyeron una distribución mejorada de fragmentos para una ubicación óptima a posteriori de la transferencia, políticas de escalado obligatorio basadas en la largo de la posaderas y una táctica de fragmentación dinámica que ajusta el recuento de fragmentos según la tasa de ingesta.

En la sucesivo sección, compartimos una configuración de prueba de ejemplo de una carga de trabajo de 30 TB que usamos internamente, detallando los datos que se usaron y generaron, conexo con nuestras observaciones y resultados. El rendimiento puede variar según la carga de trabajo específica.

Ingerir los datos

Puede utilizar los scripts de procreación de carga compartidos en lo sucesivo tallero puede utilizar su propia aplicación o productor de datos para crear una carga. Puede ejecutar varias instancias de estos scripts para suscitar una ráfaga de solicitudes de indexación. Como se muestra en la sucesivo captura de pantalla, probamos con un índice y enviamos aproximadamente 30 TB de datos durante un período de 15 días. Usamos nuestro script productor de carga para destinar el tráfico a un único índice, reteniendo los datos durante 15 días usando un política de ciclo de vida de datos.

Metodología de prueba

Configuramos el tipo de implementación en «Habilitar sobra» para habilitar la replicación de datos entre zonas de disponibilidad. Esta configuración de implementación generará entre 12 y 24 horas de datos en almacenamiento activo (memoria de disco OCU) y el resto en Servicio de almacenamiento simple de Amazon (Amazon S3). Con un conjunto definido de rendimiento de búsqueda y la expectativa de ingesta susodicho, configuramos las OCU máximas en 500 tanto para la indexación como para la búsqueda.

Como parte de las pruebas, observamos el comportamiento de escalado obligatorio y lo representamos gráficamente. La indexación tardó en torno a de 8 horas en estabilizarse en 80 OCU.

En el costado de la Búsqueda, tomó en torno a de 2 días estabilizarse en 80 OCU.

Observaciones:

Ingestión

El rendimiento de ingesta acabado fue consistentemente superior a 2 TB por día.

Despabilarse

Las consultas fueron de dos tipos, con tiempos que oscilaron entre 15 minutos y 15 días.

{"aggs":{"1":{"cardinality":{"field":"carrier.keyword"}}},"size":0,"query":{"bool":{"filter":({"range":{"@timestamp":{"gte":"now-15m","lte":"now"}}})}}}

Por ejemplo

{"aggs":{"1":{"cardinality":{"field":"carrier.keyword"}}},"size":0,"query":{"bool":{"filter":({"range":{"@timestamp":{"gte":"now-1d","lte":"now"}}})}}}

El sucesivo cuadro proporciona los distintos percentiles de rendimiento en la consulta de agregación.

La segunda consulta fue

{"query":{"bool":{"filter":({"range":{"@timestamp":{"gte":"now-15m","lte":"now"}}}),"should":({"match":{"originState":"State"}})}}}

Por ejemplo

{"query":{"bool":{"filter":({"range":{"@timestamp":{"gte":"now-15m","lte":"now"}}}),"should":({"match":{"originState":"California"}})}}}

El sucesivo cuadro proporciona los distintos percentiles de rendimiento en la consulta de búsqueda.

El sucesivo cuadro resume el rango de tiempo para diferentes consultas.

Rango de tiempo	Consulta	P50 (ms)	P90 (ms)	P95 (ms)	P99 (ms)
15 minutos	{“aggs”:{“1”:{“cardinalidad”:{“campo”:”carrier.keyword”}}},”tamaño”:0,”consulta”:{“bool”:{“filtro”:( {“rango”:{“@marca de tiempo”:{“gte”:”ahora-15m”,”lte”:”ahora”}}})}}}	325	403.867	441.917	514.75
1 dia	{“aggs”:{“1”:{“cardinalidad”:{“campo”:”carrier.keyword”}}},”tamaño”:0,”consulta”:{“bool”:{“filtro”:( {“rango”:{“@marca de tiempo”:{“gte”:”ahora-1d”,”lte”:”ahora”}}})}}}	7.693,06	12,294	13.411,19	17.481,4
1 hora	{“aggs”:{“1”:{“cardinalidad”:{“campo”:”carrier.keyword”}}},”tamaño”:0,”consulta”:{“bool”:{“filtro”:( {“rango”:{“@marca de tiempo”:{“gte”:”ahora-1h”,”lte”:”ahora”}}})}}}	1.061,66	1.397,27	1.482,75	1.719,53
1 año	{“aggs”:{“1”:{“cardinalidad”:{“campo”:”carrier.keyword”}}},”tamaño”:0,”consulta”:{“bool”:{“filtro”:( {“rango”:{“@marca de tiempo”:{“gte”:”ahora-1y”,”lte”:”ahora”}}})}}}	2.758,66	10.758	12.028	22.871,4
4 horas	{“aggs”:{“1”:{“cardinalidad”:{“campo”:”carrier.keyword”}}},”tamaño”:0,”consulta”:{“bool”:{“filtro”:( {“rango”:{“@marca de tiempo”:{“gte”:”ahora-4h”,”lte”:”ahora”}}})}}}	3.870,79	5.233,73	5.609,9	6.506,22
7 dias	{“aggs”:{“1”:{“cardinalidad”:{“campo”:”carrier.keyword”}}},”tamaño”:0,”consulta”:{“bool”:{“filtro”:( {“rango”:{“@timestamp”:{“gte”:”now-7d”,”lte”:”now”}}})}}}	5.395,68	17.538,12	19.159,18	22.462,32
15 minutos	{“query”:{“bool”:{“filter”:({“range”:{“@timestamp”:{“gte”:”now-15m”,”lte”:”now”}}}), ”debería”:({“match”:{“originState”:”California”}})}}}	139	190	234,55	6.071,96
1 dia	{“query”:{“bool”:{“filter”:({“range”:{“@timestamp”:{“gte”:”now-1d”,”lte”:”now”}}}), ”debería”:({“match”:{“originState”:”California”}})}}}	678.917	1.366,63	2,423	7.893,56
1 hora	{“query”:{“bool”:{“filter”:({“range”:{“@timestamp”:{“gte”:”now-1h”,”lte”:”now”}}}), ”debería”:({“match”:{“originState”:”Washington”}})}}}	259.167	305.8	343.3	1.125,66
1 año	{“query”:{“bool”:{“filter”:({“range”:{“@timestamp”:{“gte”:”now-1y”,”lte”:”now”}}}), ”debería”:({“match”:{“originState”:”Washington”}})}}}	2.166,33	2.469,7	4.804,9	9.440,11
4 horas	{“query”:{“bool”:{“filter”:({“range”:{“@timestamp”:{“gte”:”now-4h”,”lte”:”now”}}}), ”debería”:({“match”:{“originState”:”Washington”}})}}}	462.933	653,6	725.3	1.583,37
7 dias	{“consulta”:{“bool”:{“filtro”:({“rango”:{“@timestamp”:{“gte”:”now-7d”,”lte”:”now”}}}), ”debería”:({“match”:{“originState”:”Washington”}})}}}	1.353	2.745,1	4.338,8	9.496,36

Conclusión

OpenSearch Serverless no solo admite un tamaño de datos decano que las versiones anteriores, sino que igualmente introduce mejoras de rendimiento como la recuperación previa de fragmentos en caliente y optimización de la concurrencia para una mejor respuesta a las consultas. Estas características reducen la latencia de las consultas activas y mejoran el escalado obligatorio para manejar cargas de trabajo variadas. ¡Te animamos a que aproveches la compatibilidad con el índice de 30 TB y lo pongas a prueba! Migre sus datos, explore el rendimiento mejorado y aproveche las capacidades de escalamiento mejoradas.

Para comenzar, consulte Prospección de registros de forma sencilla con Amazon OpenSearch Serverless. Para obtener experiencia destreza con OpenSearch Serverless, siga las instrucciones Preámbulo a Amazon OpenSearch sin servidor taller, que tiene una pauta paso a paso para configurar y configurar una colección OpenSearch Serverless.

Si tiene algún comentario sobre esta publicación, compártalo en la sección de comentarios. Si tienes preguntas sobre esta publicación, inicia un nuevo hilo en el Foro del servicio Amazon OpenSearch o póngase en contacto con el soporte de AWS.

Sobre los autores

satish nandi es administrador senior de productos en Amazon OpenSearch Service. Está centrado en OpenSearch Serverless y tiene primaveras de experiencia en redes, seguridad e IA/ML. Tiene una doctorado en Ciencias de la Computación y un MBA en Plan. En su tiempo emancipado, le gusta derribar aviones, planear y estar en motocicleta.

Milav Shah es líder de ingeniería en Amazon OpenSearch Service. Se centra en la experiencia de búsqueda para los clientes de OpenSearch. Tiene amplia experiencia en la creación de soluciones en extremo escalables en bases de datos, transmisión en tiempo vivo y computación distribuida. Además posee experiencia cómodo en sectores verticales como Internet de las cosas, protección contra fraudes, juegos e IA/ML. En su tiempo emancipado le gusta estar en velocípedo, caminar y envidiar al ajedrez.

Qiaoxuan Xue es ingeniero de software sénior en AWS y lidera las áreas de búsqueda y evaluación comparativa del plan Amazon OpenSearch Serverless. Su pasión radica en encontrar soluciones para desafíos complejos interiormente de sistemas distribuidos a gran escalera. Fuera del trabajo, le gusta trabajar la madera, estar en velocípedo, envidiar baloncesto y sobrevenir tiempo con su comunidad y su perro.

Prashant Agrawal es un arquitecto sénior de soluciones especializado en búsquedas en Amazon OpenSearch Service. Trabaja en estrecha colaboración con los clientes para ayudarlos a portar sus cargas de trabajo a la nimbo y ayuda a los clientes existentes a ajustar sus clústeres para conquistar un mejor rendimiento y librarse costos. Antiguamente de unirse a AWS, ayudó a varios clientes a utilizar OpenSearch y Elasticsearch para sus casos de uso de prospección de registros y búsqueda. Cuando no está trabajando, puedes encontrarlo viajando y explorando nuevos lugares. En definitiva, le gusta hacer Ingerir → Correr → Repetir.

Etiquetado Amazon, carga, con, Extraiga, información, OpenSearch, series, Serverless, temporales, trabajo, Una