Los modelos de recuperación de información (IR) enfrentan desafíos importantes a la hora de ofrecer experiencias de búsqueda transparentes e intuitivas. Las metodologías actuales se basan principalmente en una única puntuación de similitud semántica para hacer coincidir las consultas con los pasajes, lo que genera una experiencia de favorecido potencialmente opaca. Este enfoque a menudo requiere que los usuarios participen en un proceso engorroso de encontrar palabras secreto específicas, aplicar varios filtros en la configuración de búsqueda descubierta y refinar iterativamente sus consultas en función de resultados de búsqueda anteriores. La menester de que los usuarios elaboren la consulta «perfecta» para recuperar los pasajes deseados resalta las limitaciones de los sistemas IR existentes a la hora de proporcionar capacidades de búsqueda eficientes y fáciles de usar.
Los desarrollos recientes en los modelos IR han introducido el uso de instrucciones, yendo más allá del entrenamiento tradicional de recuperadores densos que se centraba en funciones de similitud similares a la concordancia a nivel de frase. Los primeros esfuerzos como TART e Instructor incorporaron prefijos de tareas simples durante el entrenamiento. Modelos más recientes como E5-Mistral, GritLM y NV-Retriever han ampliado este enfoque al ampliar tanto el tamaño del conjunto de datos como del maniquí. Estos modelos más nuevos suelen adoptar el conjunto de instrucciones propuesto por E5-Mistral. Sin retención, si acertadamente estos avances representan avances en el campo, todavía dependen principalmente de un único conjunto de instrucciones y no abordan completamente los desafíos de elogiar a los usuarios una experiencia de búsqueda más transparente y flexible.
Investigadores de la Universidad Johns Hopkins y Samaya AI han presentado Promptriever, un enfoque único para la recuperación de información que permite el control mediante indicaciones en jerga natural. Este maniquí permite a los usuarios ajustar dinámicamente los criterios de relevancia utilizando descripciones conversacionales, eliminando la menester de múltiples búsquedas o filtros complejos. Por ejemplo, al averiguar películas de James Cameron, los usuarios pueden simplemente especificar criterios como «Los documentos relevantes no están codirigidos y se crearon antaño de 2022». Promptriever se sostén en una edificación de recuperación de codificador dual y utiliza modelos de jerga grandes como LLaMA-2 7B como columna vertebral. Si acertadamente los modelos de jerga previamente entrenados pueden adaptarse a instrucciones de jerga natural, el entrenamiento de IR tradicional a menudo compromete esta capacidad al centrarse nada más en optimizar las puntuaciones de similitud semántica de los pasajes de consulta. Promptriever aborda esta inconveniente, manteniendo la capacidad de seguir instrucciones posteriormente del entrenamiento IR.
Promptriever utiliza un proceso de concepción de datos de dos partes para entrenar su bicodificador para la recuperación basada en instrucciones. El maniquí se sostén en el conjunto de datos de MS MARCO, utilizando la lectura tevatron-msmarco-aug con negativos duros. El primer paso implica la concepción de instrucciones, donde Claridad-3-70B-Instruct crea instrucciones diversas y específicas para cada consulta, que varían en distancia y estilo. Estas instrucciones mantienen la relevancia con los pasajes positivos originales, según lo verificado por FollowIR-7B.
El segundo paso, la minería de instrucciones negativas, introduce pasajes que son positivos para consultas pero negativos para instrucciones. Este proceso alienta al maniquí a considerar tanto la consulta como la instrucción durante el entrenamiento. GPT-4 genera estos pasajes, que luego se filtran utilizando FollowIR-7B para certificar la precisión. La energía humana confirma la validez de este proceso de filtrado, alcanzando la concordancia modelo-humano el 84%.
Este enfoque integral de aumento de datos permite a Promptriever adaptar sus criterios de relevancia de forma dinámica en función de instrucciones en jerga natural, mejorando significativamente sus capacidades de recuperación en comparación con los modelos IR tradicionales.
Promptriever demuestra un desempeño superior en el seguimiento de instrucciones mientras mantiene sólidas capacidades de recuperación típico. Supera al RepLLaMA innovador por un beneficio significativo, con mejoras de +14,3 p-MRR y +3,1 en nDCG/MAP, estableciéndose como el recuperador denso de anciano rendimiento. Si acertadamente los modelos con codificador cruzado logran los mejores resultados adecuado a su preeminencia computacional, el rendimiento de Promptriever como maniquí bicodificador es comparable y más valioso.
En tareas de recuperación típico sin instrucciones, Promptriever se desempeña a la par con RepLLaMA para tareas adentro del dominio (MS MARCO) y tareas fuera del dominio (BEIR). Encima, Promptriever muestra un 44 % menos de variación en las indicaciones en comparación con RepLLaMA y un 77 % menos que BM25, lo que indica una anciano solidez delante las variaciones de entrada. Estos resultados subrayan la validez del enfoque basado en instrucciones de Promptriever para mejorar tanto la precisión de la recuperación como la adaptabilidad a diversas consultas.
Este estudio presenta Promptriever, un avance significativo en la recuperación de información, que presenta el primer recuperador rápido de disparo cero. Desarrollado utilizando un conjunto de datos único basado en instrucciones derivado de MS MARCO, este maniquí demuestra un rendimiento superior tanto en tareas de recuperación típico como en seguimiento de instrucciones. Al adaptar dinámicamente sus criterios de relevancia en función de instrucciones por consulta, Promptriever muestra la aplicación exitosa de técnicas de incitación desde modelos de jerga hasta recuperadores densos. Esta innovación allana el camino para sistemas de recuperación de información más flexibles y fáciles de usar, cerrando la brecha entre el procesamiento del jerga natural y las capacidades de búsqueda eficientes.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este tesina. Encima, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grhacia lo alto. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro SubReddit de 52k+ ML
Asjad es consejero interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del formación espontáneo y el formación profundo que siempre está investigando las aplicaciones del formación espontáneo en la atención médica.