Athrun Data Intelligence


Los modelos de idioma vasto (LLM) tienen aplicaciones potenciales en educación, atención médica, apoyo a la vigor mental y otros dominios. Sin requisa, su precisión y coherencia al seguir las instrucciones del legatario determinan su valía. Incluso pequeños desvíos de las instrucciones pueden tener graves repercusiones en situaciones de suspensión peligro, como aquellas que implican una delicada orientación médica o psiquiátrica. La capacidad de los LLM para comprender y ejecutar instrucciones con precisión es, por lo tanto, un problema importante para su implementación segura.

Estudios recientes han revelado limitaciones significativas en la capacidad de los LLM para seguir instrucciones de forma confiable, lo que plantea dudas sobre su confiabilidad en situaciones prácticas. A veces, incluso los modelos más sofisticados malinterpretan las instrucciones o se apartan de ellas, lo que puede compendiar su aptitud, especialmente en situaciones delicadas. A la luz de estos inconvenientes, es necesaria una técnica confiable para determinar cuándo y cómo un LLM puede no estar seguro de su capacidad para seguir instrucciones para compendiar los peligros que implica el uso de estos modelos. Un LLM puede proporcionar protección o revisión humana adicional que puede evitar consecuencias inesperadas cuando es capaz de detectar una entrada incertidumbre en situaciones en las que no está seguro de su reacción.

En un estudio flamante, un equipo de investigadores de la Universidad de Cambridge, la Universidad Doméstico de Singapur y Apple compartieron una evaluación exhaustiva de la capacidad de los LLM para evaluar con precisión su incertidumbre en escenarios de seguimiento de instrucciones. Las tareas de seguimiento de instrucciones plantean distintas dificultades en contraste con las tareas basadas en hechos, donde las estimaciones de incertidumbre se concentran en la precisión de los datos. La capacidad de un LLM para evaluar dudas sobre el cumplimiento de ciertos requisitos, como evitar ciertos temas o producir respuestas en un tono particular, es complicada. Fue un desafío determinar la capacidad actual del LLM para seguir instrucciones por sí solo en puntos de relato anteriores porque varios utensilios, como la incertidumbre, la corrección del maniquí y la claridad de las instrucciones, estaban frecuentemente entrelazados.

El equipo ha desarrollado un ámbito de evaluación sistemática para manejar estas complicaciones. Para proporcionar una comparación más transparente de las técnicas de estimación de la incertidumbre en circunstancias controladas, este método presenta dos iteraciones de un conjunto de datos de relato. Mientras que la lectura de relato realista incluye respuestas LLM generadas lógicamente que imitan la imprevisibilidad del mundo actual, la lectura de relato controlada elimina influencias externas para ofrecer un ámbito claro para evaluar la incertidumbre de los modelos.

Los resultados han demostrado las limitaciones de la mayoría de las técnicas actuales de estimación de la incertidumbre, especialmente cuando se manejo de fallos modestos en el seguimiento de instrucciones. Aunque las técnicas que utilizan los estados internos de los LLM demuestran cierto progreso con respecto a métodos más sencillos, todavía son insuficientes en situaciones complejas donde las respuestas pueden no coincidir con precisión o contradecir las instrucciones. Esto sugiere que los LLM necesitan mejorar su estimación de la incertidumbre, particularmente para tareas complejas de seguimiento de instrucciones.

El equipo ha resumido sus principales contribuciones de la próximo forma.

  1. Este estudio cierra una brecha significativa en investigaciones anteriores sobre LLM al ofrecer la primera evaluación integral de la efectividad de las técnicas de estimación de la incertidumbre en tareas de seguimiento de instrucciones.
  1. A posteriori de identificar problemas en los conjuntos de datos anteriores, se creó un nuevo punto de relato para las tareas de seguimiento de instrucciones. Este punto de relato permite una comparación directa y exhaustiva de las técnicas de estimación de la incertidumbre en escenarios tanto controlados como del mundo actual.
  1. Algunas técnicas, como la autoevaluación y el cavado, son prometedoras, pero tienen problemas para seguir instrucciones más complicadas. Estos resultados han puesto de relieve lo crucial que es realizar más investigaciones para mejorar las estimaciones de incertidumbre en tareas que implican las siguientes instrucciones, ya que esto podría mejorar la confiabilidad de los agentes de IA.

En conclusión, estos resultados resaltan lo crucial que es crear nuevos enfoques para evaluar la incertidumbre que se adapten al seguimiento de instrucciones. Estos desarrollos pueden aumentar la credibilidad de los LLM y permitirles funcionar como agentes de IA confiables en dominios donde la precisión y la seguridad son esenciales.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este plan. Encima, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grhacia lo alto. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.

(Próximo seminario web en vivo: 29 de octubre de 2024) La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)


Tanya Malhotra es estudiante de postrero año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Fabricado y Estudios Mecánico.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, cercano con un apasionado interés en lograr nuevas habilidades, liderar grupos y dirigir el trabajo de forma organizada.



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *