Los aceleradores Intel en Amazon OpenSearch Service mejoran la relación precio-rendimiento en la búsqueda vectorial hasta en un 51%

Esta publicación está coescrita con Mulugeta Mammo y Akash Shankaran de Intel.

Hoy nos complace anunciar la disponibilidad de Extensiones vectoriales avanzadas Intel 512 (AVX-512) celeridad de la tecnología en cargas de trabajo de búsqueda vectorial cuando ejecuta dominios OpenSearch 2.17+ con 4^th Instancias Intel Xeon Intel de concepción en el Servicio de búsqueda abierta de Amazon. Cuando ejecuta dominios OpenSearch 2.17 en Instancias C/M/R 7ipuede obtener hasta un 51 % en rendimiento de búsqueda vectorial sin costo adicional en comparación con instancias Intel R5 anteriores.

Cada vez más, los creadores de aplicaciones utilizan la búsqueda vectorial para mejorar la calidad de búsqueda de sus aplicaciones. Esta técnica moderna implica codificar contenido en representaciones numéricas (vectores) que pueden estilarse para encontrar similitudes entre contenidos. Por ejemplo, se utiliza en aplicaciones de IA generativa para hacer coincidir las consultas de los usuarios con artículos de conocimiento semánticamente similares, proporcionando contexto y saco para que los modelos generativos realicen tareas. Sin bloqueo, la búsqueda vectorial es computacionalmente intensiva y los mayores requisitos de computación y memoria pueden gestar costos más altos que la búsqueda tradicional. Por lo tanto, las palancas de optimización de costos son importantes para obtener un inmovilidad benévolo entre costo y beneficio.

OpenSearch Service es un servicio tramitado para la Brindar búsqueda Suite de búsqueda y estudio, que incluye soporte para búsqueda vectorial. Al ejecutar sus dominios OpenSearch 2.17+ en Instancias C/M/R 7ipuede obtener una lucro de precio-rendimiento de hasta un 51 % en comparación con las instancias R5 anteriores en OpenSearch Service. Como comentamos en esta publicación, este emanación ofrece mejoras en el costo total de propiedad (TCO) de su infraestructura y ahorros.

Acelerar las aplicaciones de IA generativa con vectorización

Entendamos cómo se combinan estas tecnologías mediante la construcción de una aplicación de IA generativa simple. Primero, pones la búsqueda de vectores en partidura mediante el uso de modelos de educación inevitable (ML) para codificar tu contenido (como texto, imágenes o audio) en vectores. Luego, indexa estos vectores en un dominio del servicio OpenSearch, lo que permite una búsqueda de similitud de contenido en tiempo positivo que se puede resquilar para averiguar miles de millones de vectores en milisegundos. Estas búsquedas vectoriales proporcionan información contextualmente relevante, que puede enriquecerse aún más con la IA para una hiperpersonalización e integrarse con modelos generativos para impulsar los chatbots.

Los casos de uso de búsqueda de vectores se extienden más allá de las aplicaciones de IA generativa. Los casos de uso incluyen búsqueda de imágenes a semántica y recomendaciones como las siguientes del mundo positivo. caso de uso de Amazon Música. La aplicación Amazon Music utiliza la vectorización para codificar 100 millones de canciones en vectores que representan tanto pistas musicales como preferencias de los clientes. Luego, estos vectores se indexan en OpenSearch, que administra más de mil millones de vectores y maneja hasta 7100 consultas de vectores por segundo para analizar el comportamiento de audición del favorecido y dedicar recomendaciones en tiempo positivo.

Los procesos de indexación y búsqueda requieren un uso computacional intensivo y requieren cálculos entre vectores que normalmente se representan como 128 a 2048 dimensiones (títulos numéricos). Los procesadores Intel Xeon Scalable que se encuentran en el 7^th uso de instancias Intel de concepción Intel AVX-512 para aumentar la velocidad y eficiencia de las operaciones vectoriales a través de las siguientes características:

Procesamiento paralelo de datos – Al procesar 512 bits (el doble que su predecesor) de datos a la vez, Intel AVX-512 utiliza eficientemente SIMD (datos múltiples de entrada única) para ejecutar múltiples operaciones simultáneamente, lo que proporciona una celeridad significativa.
Reducción de la distancia del camino – La celeridad se debe a una alivio significativa en distancia del caminoque es una medida del número de instrucciones necesarias para realizar una pelotón de trabajo en cargas de trabajo
Capital de rendimiento energético – Puede compendiar los costos de rendimiento energético procesando más datos y realizando más operaciones en menos tiempo.

Búsqueda de vectores de evaluación comparativa en OpenSearch

Las instancias OpenSearch Services R7i con Intel AVX-512 son una excelente opción para cargas de trabajo vectoriales de OpenSearch. Ofrecen una entrada relación CPU-memoria, lo que maximiza aún más el potencial informático al tiempo que proporciona una amplia memoria.

Para revisar qué tan rápido funcionan las nuevas instancias R7i, puede ejecutar pruebas comparativas de OpenSearch de primera mano. Usando su dominio OpenSearch 2.17, cree un índice k-NN configurado para usar el motor Lucene o FAISS. Utilice el Punto de narración de OpenSearch con el conjunto de datos sabido Cohere 10M 768D para replicar los puntos de narración publicados en esta publicación. Repita estas pruebas utilizando las instancias R5 más antiguas como saco.

En las siguientes secciones, presentamos los puntos de narración que demuestran las ganancias de precio-rendimiento del 51 % entre las instancias R7i y R5.

Resultados del motor Lucene

En esta publicación, definimos precio-rendimiento como la cantidad de documentos que se pueden indexar o realizar consultas de búsqueda con un presupuesto fijo ($1), teniendo en cuenta el costo de la instancia. Los siguientes son resultados de precio-rendimiento con el conjunto de datos Cohere 10M.

Se observa una alivio de hasta un 44 % en la relación precio-rendimiento al utilizar el motor Lucene y renovar de instancias R5 a R7i. La diferencia entre las barras celeste y naranja en los siguientes gráficos ilustra las ganancias aportadas por la celeridad del AVX512.

Resultados del motor FAISS

Asimismo examinamos los resultados de las mismas pruebas realizadas en índices k-NN configurados en el motor FAISS. Se logran ganancias de precio-rendimiento de hasta un 51 % en el rendimiento del índice simplemente actualizando de las instancias r5 a r7i. Nuevamente, la diferencia entre la mostrador celeste y naranja demuestra las ganancias adicionales aportadas por AVX512.

Encima de las ganancias en precio-rendimiento, los tiempos de respuesta de búsqueda igualmente mejoraron al renovar las instancias R5 a R7i con AVX512. Las latencias de P90 y P99 fueron menores en un 33% y un 38%, respectivamente.

El motor FAISS tiene el beneficio adicional de la celeridad AVX-512 con vectores cuantificados FP16. Con la cuantificación del FP16, los vectores se comprimen a la centro de su tamaño, lo que reduce los requisitos de memoria y almacenamiento y, a su vez, los costos de infraestructura. AVX-512 contribuye a mayores ganancias en relación precio-rendimiento.

Conclusión

Si está buscando modernizar las experiencias de búsqueda en OpenSearch Service y al mismo tiempo compendiar potencialmente los costos, pruebe el motor vectorial OpenSearch en Servicio de búsqueda abierta Instancias C7i, M7i o R7i. Construido sobre 4^th Procesadores Intel Xeon de concepciónlas últimas instancias de Intel ofrecen funciones avanzadas como Intel AVX-512 aceleradores, rendimiento de CPU mejorado y longevo encantado de bandada de memoria que la concepción susodicho, lo que los convierte en una excelente opción para optimizar sus cargas de trabajo de búsqueda vectorial en OpenSearch Service.

Créditos a: Vesa Pehkonen, Noah Staveley, Assane Diop, Naveen Tatikonda

Acerca de los autores

Mammo Mulugeta es ingeniero de software sénior y actualmente dirige el equipo de optimización de OpenSearch en Intel.

Vamshi Vijay Nakkirtha es un jefe de ingeniería de software que trabaja en OpenSearch Project y Amazon OpenSearch Service. Sus principales intereses incluyen los sistemas distribuidos.

Akash Shankaran es arquitecto de software y líder tecnológico en el equipo de software Xeon de Intel que trabaja en OpenSearch. Trabaja para encontrar oportunidades y permitir optimizaciones en el interior de los dominios de bases de datos, estudio y diligencia de datos.

Dylan Tong es jefe senior de productos en Amazon Web Services. Lidera las iniciativas de productos para IA y educación inevitable (ML) en OpenSearch, incluidas las capacidades de bases de datos vectoriales de OpenSearch. Dylan tiene décadas de experiencia trabajando directamente con clientes y creando productos y soluciones en el dominio de bases de datos, estudio e IA/ML. Dylan tiene una estudios y una pericia en Ciencias de la Computación de la Universidad de Cornell.

Avisos y exenciones de responsabilidad

El rendimiento varía según el uso, la configuración y otros factores. Obtenga más información sobre el Sitio web del índice de rendimiento.
Sus costos y resultados pueden variar.
Las tecnologías Intel pueden requerir hardware, software o activación de servicios habilitados.

Etiquetado aceleradores, Amazon, búsqueda, hasta, Intel, los, mejoran, OpenSearch, preciorendimiento, relación, Service, vectorial