Athrun Data Intelligence


Esta publicación está coescrita por Ishan Gupta, cofundador y director de tecnología de Juicebox.

caja de meollo es un motor de búsqueda de talentos impulsado por inteligencia sintético que utiliza modelos avanzados de verbo natural para ayudar a los reclutadores a identificar a los mejores candidatos de un vasto conjunto de datos de más de 800 millones de perfiles. El núcleo de esta funcionalidad es Servicio de búsqueda abierta de Amazonque proporciona la columna vertebral de la poderosa infraestructura de búsqueda de Juicebox, permitiendo una combinación perfecta de métodos tradicionales de búsqueda de texto completo con capacidades de búsqueda semántica modernas y de vanguardia.

En esta publicación, compartimos cómo Juicebox utiliza el servicio OpenSearch para mejorar la búsqueda.

Desafíos en la búsqueda de reemplazo

Los motores de búsqueda de reemplazo tradicionalmente se basan en búsquedas booleanas simples o basadas en palabras esencia. Estos métodos no son efectivos para capturar los matices y la intención detrás de consultas complejas, lo que a menudo genera grandes volúmenes de resultados irrelevantes. Los reclutadores dedican tiempo innecesario a filtrar estos resultados, un proceso que consume mucho tiempo y es ineficiente.

Encima, los motores de búsqueda de contratación a menudo tienen dificultades para progresar con grandes conjuntos de datos, lo que genera problemas de latencia y cuellos de botella en el rendimiento a medida que se indexan más datos. En Juicebox, con una cojín de datos que crece a más de mil millones de documentos y millones de perfiles buscados por minuto, necesitábamos una decisión que no solo pudiera manejar la ingesta y consulta de datos a gran escalera, sino que igualmente respaldara la comprensión contextual de consultas complejas.

Descripción universal de la decisión

El sucesivo diagrama ilustra la casa de la decisión.

OpenSearch Service desbloquea de forma segura la búsqueda, el monitoreo y el examen en tiempo positivo de datos comerciales y operativos para casos de uso como monitoreo de aplicaciones, examen de registros, observabilidad y búsqueda de sitios web. Envía documentos de búsqueda al servicio OpenSearch y los recupera con consultas de búsqueda que coinciden con incrustaciones de texto y vectores para obtener resultados rápidos y relevantes.

En Juicebox, resolvimos cinco desafíos con Amazon OpenSearch Service, que analizamos en las siguientes secciones.

Problema 1: suscripción latencia en la búsqueda de candidatos

Inicialmente, enfrentamos retrasos significativos en la producción de resultados de búsqueda adecuado a la escalera de nuestro conjunto de datos, especialmente para consultas semánticas complejas que requieren una comprensión contextual profunda. Otros motores de búsqueda de texto completo no pudieron cumplir con nuestros requisitos de velocidad o relevancia cuando se trataba de comprender la intención del reclutador detrás de cada búsqueda.

Decisión: BM25 para una búsqueda de texto completo rápida y precisa

El operación OpenSearch Service BM25 rápidamente demostró ser invaluable al permitir a Juicebox optimizar el rendimiento de la búsqueda de texto completo manteniendo la precisión. A través de la puntuación de relevancia de las palabras esencia, BM25 ayuda a clasificar los perfiles según la probabilidad de que coincidan con la consulta del reclutador. Esta optimización redujo nuestra latencia promedio de consulta de en torno a de 700 milisegundos a 250 milisegundos, lo que permitió a los reclutadores recuperar perfiles relevantes mucho más rápido que nuestra implementación de búsqueda susodicho.

Con BM25, observamos una reducción de casi tres veces en la latencia para búsquedas basadas en palabras esencia, mejorando la experiencia de búsqueda universal para nuestros usuarios.

Problema 2: intención coincidente, no solo palabras esencia

En la contratación, la concordancia exacta de palabras esencia a menudo puede hacer que se pierdan candidatos calificados. Un reclutador que busque “científicos de datos con experiencia en PNL” podría perder candidatos con “enseñanza inconsciente” en sus perfiles, aunque tengan la experiencia adecuada.

Decisión: búsqueda de vectores impulsada por k-NN para comprensión semántica

Para encarar esto, Juicebox utiliza Búsqueda de vectores de k-vecino más cercano (k-NN). Las incorporaciones de vectores permiten que el sistema comprenda el contexto detrás de las consultas de los reclutadores y haga coincidir candidatos en función del significado semántico, no solo de coincidencias de palabras esencia. Mantenemos un índice de búsqueda vectorial a escalera de mil millones que es capaz de realizar búsquedas k-NN de depreciación latencia, gracias a las optimizaciones del servicio OpenSearch, como las capacidades de cuantificación de productos. La capacidad de búsqueda neuronal nos permitió crear un canal de engendramiento aumentada de recuperación (RAG) para incorporar consultas en verbo natural ayer de la búsqueda. OpenSearch Service nos permite optimizar los hiperparámetros del operación para pequeños mundos navegables ocultos (HNSW) como m, ef_searchy ef_construction. Esto nos permitió alcanzar nuestros objetivos de latencia, recuperación y costos.

La búsqueda semántica, impulsada por k-NN, nos permitió encontrar candidatos un 35 % más relevantes en comparación con las búsquedas de solo palabras esencia para consultas complejas. La velocidad de estas búsquedas siguió siendo rápida y precisa, y las consultas vectorizadas alcanzaron un 0,9+. memorar.

Problema 3: dificultad para comparar modelos de enseñanza inconsciente

Existen varios indicadores esencia de rendimiento (KPI) que miden el éxito de su búsqueda. Cuando utiliza incrustaciones de vectores, tiene varias opciones que tomar al escoger el maniquí, ajustarlo y nominar los hiperparámetros que se usarán. Debe comparar su decisión para cerciorarse de obtener la latencia, el costo y, especialmente, la precisión adecuados. La evaluación comparativa de los modelos de enseñanza inconsciente (ML) para la recuperación y el rendimiento es un desafío adecuado a la gran cantidad de modelos disponibles en rápida progreso (como la tabla de clasificación MTEB en Hugging Face). Enfrentamos dificultades para escoger y cronometrar modelos con precisión y al mismo tiempo asegurarnos de tener un buen desempeño en conjuntos de datos a gran escalera.

Decisión: k-NN exacto con script de puntuación en OpenSearch Service

Caja de meollo usada k-NN exacto con pendón de puntuación características para encarar estos desafíos. Esta característica permite realizar evaluaciones comparativas precisas mediante la ejecución de búsquedas de vecinos más cercanos por fuerza bruta y la aplicación de filtros a un subconjunto de vectores, asegurando que las métricas de recuperación sean precisas. Las pruebas de modelos se simplificaron utilizando la amplia gradación de modelos previamente entrenados y Conectores ML (integrado con Roca Amazónica y Amazon SageMaker) proporcionado por el servicio OpenSearch. La flexibilidad de aplicar scripts de filtrado y puntuación personalizados nos ayudó a evaluar con confianza múltiples modelos en conjuntos de datos de suscripción dimensión.

Juicebox pudo cronometrar el rendimiento del maniquí con un control detallado y logró una recuperación de 0,9+. El uso de k-NN exacto permitió a Juicebox realizar evaluaciones comparativas de guisa más rápida y confiable, incluso en datos de miles de millones de escalera, brindando la confianza necesaria para la selección del maniquí.

Problema 4: Error de conocimientos basados ​​en datos

Los reclutadores no sólo necesitan encontrar candidatos, sino igualmente obtener información sobre las tendencias más amplias de la industria del talento. Analizar cientos de millones de perfiles para identificar tendencias en habilidades, geografías e industrias fue un proceso computacional intensivo. La mayoría de los demás motores de búsqueda que admiten la búsqueda de texto completo o la búsqueda k-NN no admiten agregaciones.

Decisión: agregaciones avanzadas con el servicio OpenSearch

Las potentes funciones de agregación de OpenSearch Service nos permitieron crear Información sobre el talentouna función que proporciona a los reclutadores información útil a partir de datos agregados. Al realizar agregaciones a gran escalera en millones de perfiles, identificamos habilidades esencia y tendencias de contratación, y ayudamos a los clientes a ajustar sus estrategias de almacenamiento.

Las consultas de agregación ahora se ejecutan en más de 100 millones de perfiles y arrojan resultados en menos de 800 milisegundos, lo que permite a los reclutadores producir información al instante.

Problema 5: activar la ingesta e indexación de datos

Juicebox ingiere datos continuamente de múltiples fuentes en la web, alcanzando terabytes de datos nuevos por mes. Necesitábamos una canalización de datos sólida para ingerir, indexar y consultar estos datos a escalera sin degradación del rendimiento.

Decisión: ingesta de datos escalable con canalizaciones de ingesta de Amazon OpenSearch

Usando Ingestión de Amazon OpenSearchimplementamos canalizaciones escalables. Esto nos permitió procesar e indexar de guisa competente cientos de millones de perfiles cada mes sin preocuparnos por fallas en la canalización o cuellos de botella en el sistema. Usamos Pegamento AWS para preprocesar datos de múltiples fuentes, fragmentarlos para un procesamiento espléndido e introducirlos en nuestro proceso de indexación.

Conclusión

En esta publicación, compartimos cómo Juicebox utiliza el servicio OpenSearch para mejorar la búsqueda. Ahora podemos indexar cientos de millones de perfiles por mes, manteniendo nuestros datos actualizados y actualizados, mientras mantenemos la disponibilidad en tiempo positivo para las búsquedas.


Sobre los autores

Ishan Gupta es el cofundador y director de tecnología de Juicebox, una startup de software de reemplazo impulsada por inteligencia sintético respaldada por los principales inversores de Silicon Valley, incluidos Y Combinator, Nat Friedman y Daniel Gross. Ha creado productos de búsqueda utilizados por miles de clientes para enganchar talentos para sus equipos.

Jon Handler es el Director de Obra de Soluciones para Servicios de Búsqueda en Amazon Web Services, con sede en Palo Suspensión, CA. Jon trabaja en estrecha colaboración con OpenSearch y Amazon OpenSearch Service, brindando ayuda y orientación a una amplia gradación de clientes que tienen cargas de trabajo de examen de registros y búsquedas para OpenSearch. Antiguamente de unirse a AWS, la carrera de Jon como desarrollador de software incluyó cuatro abriles de codificación de un motor de búsqueda de comercio electrónico a gran escalera. Jon tiene una Diploma en Artes de la Universidad de Pensilvania y una Ingenio en Ciencias y un Doctorado en Ciencias de la Computación e Inteligencia Químico de la Universidad Northwestern.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *