Athrun Data Intelligence


¿Alguna vez ha deseado que su agente de IA pueda ilustrarse y adaptarse sobre la marcha, tal como lo hace? Imagine un asistente de IA que, a posteriori de resolver una tarea una vez, recuerda su error y nunca lo repite. Una IA que no solo alega a las indicaciones, sino que se vuelve más inteligente con cada interacción.

Durante primaveras, este ha sido el santo eucaristía de la inteligencia sintético, un sueño retenido por dos obstáculos importantes. Hemos construido poderosos agentes de IA, pero se mantienen atrapados en una forma fija de pensar o resolver en escenarios del mundo positivo que necesitan un formación continuo. Es un dilema clásico: un talento invariable contra un formación premioso con un apetito interminable por la potencia y los datos.

Pero, ¿y si hubiera una tercera vía? A nuevo trabajo de investigación ha surgido con una forma que permite a los agentes de IA ilustrarse continuamente de un entorno cambiante sin involucrar los costos considerables de ajustar los modelos masivos que los impulsan. Memento es un enfoque revolucionario que hace exactamente eso. Al dar a los agentes de LLM una memoria externa, similar a los humanos, Memento ofrece una vía escalable, válido e increíblemente poderosa con destino a la próxima concepción de IA generalista. En este blog, desglosaremos los detalles de Memento y cómo funciona.

El problema con los agentes LLM de hoy

Los agentes del maniquí de jerigonza egregio (LLM) son el futuro. A diferencia de los LLM tradicionales que solo responden preguntas, estos agentes son solucionadores de problemas proactivos. Pueden realizar de forma autónoma tareas complejas utilizando herramientas externas y razonamiento a través de problemas paso a paso.

Sin bloqueo, por más poderosos que son, la mayoría de los agentes de LLM se dividen en una de dos categorías, cada una con un defecto crítico:

  1. El agente rígido: Este tipo de agente está construido con un flujo de trabajo fijo y codificado. Es excelente en su trabajo específico, pero no puede adaptarse. No incorporará nueva información por sí sola ni aprenderá de sus errores en tiempo positivo. Piense en una máquina mucho especializada que solo puede hacer una tarea perfectamente.
  2. El agente de ajuste: Este es el enfoque más flexible, pero increíblemente costoso. Estos agentes se actualizan al ajustar sus parámetros Core LLM basados ​​en nuevos datos o formación de refuerzo. Esto permite un comportamiento más dinámico, pero el proceso es una pesadilla abastecimiento. Esto los hace poco prácticos para el formación continuo en radio.

Memento fue construido para resolver este desafío central: ¿cómo creamos una IA que puede ilustrarse continuamente sin el proceso constante, costoso y arriesgado de sintonia FINA?

¿Qué es Memento?

Memento es básicamente un ámbito impulsado por la memoria que permite LLM Agentes para ilustrarse de la experiencia como lo haría cualquier humano. Recordan, se adaptan y reutilizan los casos pasados ​​sin retornar a capacitar el maniquí de jerigonza egregio saco en el que están construidos.

Los creadores de Memento miraron a la máquina de formación más poderosa y válido que conocemos: el cerebro humano. Los humanos no «afinan» sus cerebros cada vez que aprenden poco nuevo. En cambio, confiamos en nuestra memoria. Almacenamos experiencias pasadas, aprendemos de nuestros éxitos y fallas, y utilizamos estos memorias para llevar nuestras decisiones futuras, conocidas como razonamiento basado en casos (CBR). Es un principio psicológico que sugiere que resuelvamos nuevos problemas al rememorar y adaptar soluciones de situaciones pasadas similares.

Memento aporta este enfoque humano a los agentes de LLM. En área de ajustar el maniquí central de la LLM, Memento le da al agente una memoria episódica externa indicación porción de casos. El porción de casos almacena trayectorias pasadas, incluidos los pasos tomados, los resultados y si terminaron en éxito o fracaso. Esto permite al agente «ilustrarse sobre la marcha» sin una modernización de gradiente de su maniquí fundamental.

El código de ámbito de Memento se puede encontrar aquí: Github

¿Qué pasa en Memento?

El núcleo de este sistema es un proceso de valor de Markov fluvial (M-MDP). Es una forma de modelar el proceso de toma de decisiones del agente donde su memoria es una parte esencia de cada opción. Este es un cambio masivo de los modelos tradicionales que dependen nada más de su conocimiento interno y fijo.

Ahora que sabemos qué es Memento, vamos a sumergirnos en su cimentación.

¿Cómo funciona la cimentación de Memento?

Memento opera en un ámbito simple, pero potente de dos etapas:

Etapa 1: Planificación basada en casos

Aquí es donde piensa el agente. Un LLM actúa como el Planificadortomando una consulta de sucesor y, al igual que un humano, dividiéndolo en una índice de subasinas. La salsa secreta aquí es la memoria del caso.

Antaño de que actúe, el planificador «lee» de su porción de casos, recuperando experiencias pasadas que son más similares a la tarea presente. Luego, el agente utiliza estos casos anteriores, incluidos intentos exitosos y fallidos, para informar su plan presente, ayudándolo a evitar errores anteriores y aplicar estrategias probadas.

Etapa 2: ejecución basada en herramientas

Una vez que el planificador tiene su organización, entrega las subtarsas a la Ejecutor. Este es otro LLM que se mejoramiento con un conjunto integral de herramientas externas, como búsqueda web, intérpretes de código y procesadores de archivos. El albacea lleva a punta el plan, una subtarea a la vez, utilizando las herramientas adecuadas para hacer el trabajo. El agente incluso está equipado con potentes herramientas de búsqueda y rastreo para obtener y analizar información de la web en tiempo positivo.

Cada argumento que toma el agente y la galardón que recibe (éxito o fracaso) se registra y se «escrita» en el porción de casos. Esto crea un ciclo de feedback continua donde la memoria del agente crece constantemente y se vuelve más inteligente con cada nueva interacción. Este proceso se formaliza a través de suave Q-Learningun método que permite al agente ilustrarse el valía de diferentes casos (experiencias) con el tiempo. Es una forma sofisticada de avalar que el agente aprenda qué experiencias pasadas son más valiosas de recuperar.

Memento: rendimiento del mundo positivo

El ámbito Memento no es solo un concepto teórico; Ha entregado resultados en realidad notables. El documento detalla evaluaciones extensas en múltiples puntos de remisión, y los números son convincentes:

  1. Top-1 en Gaia: Memento alcanzó el área #1 en la tabla de clasificación Gaia, un punto de remisión diseñado para probar la capacidad de un agente para realizar tareas complejas de oraciones largas que requieren uso de herramientas y planificación autónoma. Los resultados fueron particularmente fuertes en el conjunto de pruebas, donde obtuvo el 79.40%, un nuevo punto de remisión para los marcos de agentes de código rajado.
  2. Superando a la competencia: En el conjunto de datos de DeepResearcher, que prueba la investigación web en tiempo positivo, Memento alcanzó un impresionante puntaje de 66.6% F1 y 80.4% PM. Superó a los sistemas de capacitación de última concepción, lo que demuestra que un enfoque basado en la memoria puede ser más efectivo que el ajuste de fuerza bruta.
  3. El poder de la memoria: Los estudios de extirpación en el documento confirmaron el papel crítico del porción de casos. La complemento de la memoria basada en casos solo aumentó la precisión en tareas desactualizadas hasta en un 9,6%, mostrando el poder de ilustrarse de experiencias pasadas.

El ámbito Memento, impulsado por una combinación de modelos como GPT-4.1 y O4-Minimuestra que no se tráfico de usar el maniquí más egregio, sino de usar el ámbito correcto para servirse las capacidades de ese maniquí.

Conclusión

El ámbito Memento representa un cambio profundo en la forma en que pensamos y construimos Agentes de IA. Demuestra que podemos crear sistemas de formación mucho capaces y continuos sin los costos paralizantes y las complejidades técnicas del ajuste del maniquí.

Este enfoque ofrece un camino poderoso, escalable y válido con destino a la construcción de agentes LLM verdaderamente generalistas, el tipo de IA que puede enfrentarse una amplia abanico de tareas y mejorar con cada interacción. Al abrazar una memoria humana y un molde de formación, Memento no es solo una mejor modo de construir IA; Es más intuitivo. Es un paso con destino a AGI que no solo actúa de modo inteligente, sino que aprende y se adapta de una modo que se siente mucho más … humano.

¿Inteligente para ver cómo un enfoque basado en la memoria podría cambiar la forma en que construye AI? Consulte el código y vea Memento en argumento por usted mismo. El futuro de la IA está aquí, y se plinto en una saco de memoria, no solo una potencia cruda.

Preguntas frecuentes

Q1. ¿Qué es Memento en los agentes de LLM?

A. Memento es un ámbito impulsado por la memoria que permite a los agentes de LLM ilustrarse continuamente utilizando un porción de casos extranjero, evitando el ajuste costoso y mejorando la adaptabilidad.

Q2. ¿Cómo ayuda a los agentes de Memento a mejorar el rendimiento?

R. almacena éxitos y fallas pasadas, recupera casos similares para nuevas tareas y adapta estrategias, lo que permite a los agentes para evitar errores y efectuar de modo más inteligente.

Q3. ¿Qué tan efectivo es el conmemoración en comparación con el ajuste?

A. Memento superó a los sistemas pesados ​​de capacitación, superando el punto de remisión de GAIA con un 79.4% y aumentó la precisión fuera de distribución en un 9.6%, todo sin reestructurar el maniquí saco.

Anu Madan es un diestro en diseño instructivo, redacción de contenido y marketing B2B, con un talento para elaborar ideas complejas en narraciones impactantes. Con su enfoque en la IA generativa, crea contenido perspicaz e progresista que educa, inspira y impulsa un compromiso significativo.

Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *