
Los modelos de lenguajes grandes (LLM) como ChatGPT pueden escribir un análisis o planificar un menú casi al instante. Pero hasta hace poco, igualmente era posible dejarlos perplejos. Los modelos, que se basan en patrones de verbo para objetar a las consultas de los usuarios, a menudo fallaban en problemas matemáticos y no eran buenos en razonamientos complejos. Sin requisa, de repente han mejorado mucho en estas cosas.
Se está capacitando a una nueva concepción de LLM conocidos como modelos de razonamiento para resolver problemas complejos. Al igual que los humanos, necesitan poco de tiempo para pensar en problemas como estos y, sorprendentemente, los científicos del Instituto McGovern para la Investigación del Cerebro del MIT han descubierto que los tipos de problemas que requieren el viejo procesamiento de los modelos de razonamiento son exactamente los mismos problemas con los que las personas necesitan tomarse su tiempo. En otras palabras, ellos crónica de hoy en la revista PNASel “costo de pensar” de un maniquí de razonamiento es similar al costo de pensar de un ser humano.
Los investigadores, dirigidos por Evelina Fedorenkoprofesor asociado de ciencias cerebrales y cognitivas e investigador del Instituto McGovern, concluye que, al menos en un sentido importante, los modelos de razonamiento tienen un enfoque del pensamiento similar al humano. Eso, señalan, no es intencionado. «A las personas que construyen estos modelos no les importa si lo hacen como humanos. Sólo quieren un sistema que funcione de forma robusta en todo tipo de condiciones y produzca respuestas correctas», dice Fedorenko. «El hecho de que haya cierta convergencia es en realidad sorprendente».
Modelos de razonamiento
Como muchas formas de inteligencia industrial, los nuevos modelos de razonamiento son redes neuronales artificiales: herramientas computacionales que aprenden a procesar información cuando se les proporcionan datos y un problema que resolver. Las redes neuronales artificiales han tenido mucho éxito en muchas de las tareas que las propias redes neuronales del cerebro realizan perfectamente y, en algunos casos, los neurocientíficos han descubierto que aquellas que funcionan mejor comparten ciertos aspectos del procesamiento de información en el cerebro. Aún así, algunos científicos argumentaron que la inteligencia industrial no estaba preparada para admitir aspectos más sofisticados de la inteligencia humana.
«Hasta hace poco, yo estaba entre las personas que decían: ‘Estos modelos son en realidad buenos en cosas como la percepción y el verbo, pero aún errata mucho para que tengamos modelos de redes neuronales que puedan razonar», dice Fedorenko. «Luego surgieron estos grandes modelos de razonamiento y parecen funcionar mucho mejor en muchas de estas tareas de pensamiento, como resolver problemas matemáticos y escribir códigos de computadora».
Andrea Gregor de Varda, Centro ICoN K. Mújol Yang Miembro y posdoctorado en el laboratorio de Fedorenko, explica que los modelos de razonamiento resuelven los problemas paso a paso. «En algún momento, la familia se dio cuenta de que los modelos necesitaban tener más espacio para realizar los cálculos reales necesarios para resolver problemas complejos», afirma. «El rendimiento comenzó a ser muchísimo más esforzado si permitías que los modelos dividieran los problemas en partes».
Para alentar a los modelos a resolver problemas complejos en pasos que conduzcan a soluciones correctas, los ingenieros pueden utilizar el enseñanza por refuerzo. Durante su entrenamiento, los modelos son recompensados por las respuestas correctas y penalizados por las incorrectas. «Los modelos exploran el espacio del problema por sí mismos», dice de Varda. “Se refuerzan las acciones que conducen a recompensas positivas, de modo que produzcan soluciones correctas con más frecuencia”.
Los modelos entrenados de esta forma tienen muchas más probabilidades que sus predecesores de venir a las mismas respuestas que obtendría un humano cuando se le asigna una tarea de razonamiento. Su resolución de problemas por pasos significa que los modelos de razonamiento pueden tardar un poco más en encontrar una respuesta que los LLM anteriores, pero entregado que obtienen respuestas correctas donde los modelos anteriores habrían fallado, vale la pena esperar por sus respuestas.
La carencia de los modelos de tomarse algún tiempo para resolver problemas complejos ya sugiere un paralelo con el pensamiento humano: si exiges que una persona resuelva un problema difícil instantáneamente, probablemente igualmente fracasará. De Varda quería examinar esta relación de forma más sistemática. Así que les dio a modelos de razonamiento y a voluntarios humanos el mismo conjunto de problemas, y registró no sólo si tenían las respuestas correctas, sino igualmente cuánto tiempo o esfuerzo les llevó venir allí.
Tiempo contra tokens
Esto significó calcular cuánto tiempo les tomó a las personas objetar a cada pregunta, hasta el milisegundo. Para los modelos, Varda utilizó una métrica diferente. No tenía sentido calcular el tiempo de procesamiento, ya que depende más del hardware de la computadora que del esfuerzo que pone el maniquí para resolver un problema. Entonces, en zona de eso, rastreó los tokens, que son parte de la condena de pensamiento interna de un maniquí. «Producen tokens que no están destinados a que el agraciado los vea y trabaje en ellos, sino simplemente a tener un seguimiento del cálculo interno que están haciendo», explica de Varda. «Es como si estuvieran hablando solos».
Se pidió tanto a los humanos como a los modelos de razonamiento que resolvieran siete tipos diferentes de problemas, como aritmética numérica y razonamiento intuitivo. Para cada clase de problema, se les dieron muchos problemas. Cuanto más difícil era un problema determinado, más tiempo les tomaba a las personas resolverlo, y cuanto más les tomaba a las personas resolver un problema, más tokens generaba un maniquí de razonamiento cuando llegaba a su propia alternativa.
Del mismo modo, las clases de problemas que los humanos tardaron más en resolver fueron las mismas clases de problemas que requirieron la viejo cantidad de fichas para los modelos: los problemas aritméticos fueron los menos exigentes, mientras que un orden de problemas llamado «desafío ARC», donde pares de cuadrículas de colores representan una transformación que debe inferirse y luego aplicarse a un nuevo objeto, fueron los más costosos tanto para las personas como para los modelos.
De Varda y Fedorenko dicen que la sorprendente coincidencia en los costos del pensamiento demuestra una forma en que los modelos de razonamiento piensan como humanos. Sin requisa, eso no significa que los modelos estén recreando la inteligencia humana. Los investigadores todavía quieren retener si los modelos utilizan representaciones de información similares a las del cerebro humano y cómo esas representaciones se transforman en soluciones a los problemas. Además sienten curiosidad por retener si los modelos podrán manejar problemas que requieren un conocimiento del mundo que no se detalla en los textos que se utilizan para el entrenamiento de modelos.
Los investigadores señalan que aunque los modelos de razonamiento generan monólogos internos a medida que resuelven problemas, no necesariamente utilizan el verbo para pensar. «Si nos fijamos en el resultado que producen estos modelos mientras razonan, a menudo contiene errores o algunas partes sin sentido, incluso si el maniquí finalmente llega a una respuesta correcta. Por lo tanto, los cálculos internos reales probablemente tengan zona en un espacio de representación indeterminado y no lingüístico, similar a cómo los humanos no usan el verbo para pensar», dice.