El razonamiento de COT grande progreso el rendimiento de los modelos de jerigonza excelso en tareas complejas, pero viene con inconvenientes. El método pintoresco de «pensar y respuesta» ralentiza los tiempos de respuesta cerca de debajo, interrumpiendo las interacciones en tiempo vivo como las de los chatbots. Igualmente corre el aventura de inexactitudes, ya que los errores en los pasos de razonamiento anteriores pueden conducir a una respuesta final engañosa. A diferencia de los humanos, que a menudo comparten pensamientos o conclusiones parciales durante las conversaciones, LLMS retrasa las respuestas hasta que se complete todo el razonamiento. Si admisiblemente RL se usa comúnmente para entrenar modelos de razonamiento, galardón principalmente las respuestas finales, pasando por suspensión información intermedia efectos. Existe un creciente interés en enseñar modelos que se alternan entre pensar y replicar, pero esto sigue siendo un desafío.
RL se ha convertido en un método popular para mejorar el razonamiento en LLMS, basándose en su éxito en la adscripción de modelos con preferencias humanas. Dos tipos de recompensas comunes folleto RL: recompensas basadas en resultados (ORM), que se centran en la respuesta final, y las recompensas basadas en procesos (PRM), que proporcionan comentarios sobre los pasos de razonamiento intermedio. Si admisiblemente los PRM ofrecen una supervisión más detallada, a menudo confían en la anotación humana y los modelos adicionales, haciéndolos complejos y propensos a problemas como la piratería de recompensas. Por separado, los esfuerzos para mejorar el razonamiento de LLM han explorado las estrategias de incorporación, el razonamiento estructurado, la integración de herramientas y los métodos para disminuir la latencia y mejorar la eficiencia.
Los investigadores de Apple y la Universidad de Duke introducen un razonamiento entrelazado, un nuevo enfoque RL que permite que los modelos de idiomas alternen entre pensar y replicar al resolver preguntas complejas de varios pasos. En motivo de esperar hasta el final para replicar, los modelos proporcionan respuestas intermedias informativas, lo que progreso los comentarios para los usuarios y folleto su razonamiento. Utilizando una galardón directa basada en reglas, el maniquí está entrenado para producir pasos de razonamiento efectos, lo que lleva a más de 80% de respuestas más rápidas y hasta un 19.3% mejor precisión. Entrenado solo en QA y conjuntos de datos lógicos, el método demuestra una cachas universalización a puntos de narración más desafiantes, como Math, GPQA y MMLU.
El estudio propone un situación de estudios de refuerzo para entrenar LLM para un razonamiento intercalado, donde los modelos alternan entre el pensamiento interno y las respuestas intermedias orientadas al favorecido. Cada paso intermedio, o «sub-respuesta», se comparte una vez que el maniquí alcanza un hito significativo en el razonamiento. Una plantilla de entrenamiento especializada con
El enfoque de razonamiento entrelazado se evaluó en conjuntos de datos familiares y desconocidos utilizando modelos QWEN2.5 (1.5B y 7B). A diferencia de los métodos tradicionales que separan el pensamiento y la respuesta, el método entrelazado proporciona respuestas de forma incremental, mejorando tanto la velocidad como la utilidad. Cuando se combina con recompensas intermedias, progreso significativamente el rendimiento del maniquí al tiempo que reduce los retrasos de respuesta en más del 80%. Incluso sin exposición a nuevos dominios durante el entrenamiento, el maniquí se adapta admisiblemente, mostrando una cachas universalización. Estos resultados resaltan el valencia del razonamiento intercalado para hacer que los sistemas de IA sean más receptivos y efectivos en las tareas de razonamiento de múltiples pasos en el mundo vivo.

En conclusión, el estudio explora cómo el razonamiento entrelazado, donde los modelos se alternan entre el razonamiento y la reproducción de respuestas intermedias, puede mejorar significativamente el rendimiento y la capacidad de respuesta. Utilizando el maniquí QWEN2.5-1.5B, los autores muestran que proporcionar feedback intermedia oportuna durante el entrenamiento aumenta la precisión y acelera la reproducción de respuesta. Se probaron diferentes estrategias de RL, con PPO que muestra resultados estables y recompensas condicionales y discontinadas en el tiempo que demuestran ser las más efectivas. El método escalera admisiblemente a tareas complejas y supera a las líneas de cojín tradicionales de pensamiento y respuesta. A diferencia de los modelos de galardón a nivel de token, este enfoque emplea recompensas simples basadas en reglas posteriormente de completar los pasos de razonamiento completos, evitando así la piratería de recompensas. En última instancia, el razonamiento entrelazado progreso la calidad y la eficiencia del razonamiento sin necesitar de herramientas externas.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este esquema. Encima, siéntete libertado de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble jerarquía en IIT Madras, le apasiona aplicar tecnología e IA para enfrentarse los desafíos del mundo vivo. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida vivo.