Athrun Data Intelligence


La importancia del razonamiento simbólico en el modelado mundial

Comprender cómo funciona el mundo es esencia para crear agentes de IA que puedan adaptarse a situaciones complejas. Si acertadamente los modelos neurales basados ​​en redes, como Dreamer, ofrecen flexibilidad, requieren cantidades masivas de datos para memorizar de modo efectiva, mucho más de lo que los humanos suelen hacerlo. Por otro banda, los métodos más nuevos utilizan la síntesis del software con modelos de idioma grandes para originar modelos mundiales basados ​​en código. Estos son más eficientes en datos y pueden extender acertadamente a partir de una entrada limitada. Sin requisa, su uso se ha condicionado principalmente a dominios simples, como mundos de texto o cuadrícula, ya que la escalera de entornos complejos y dinámicos sigue siendo un desafío adecuado a la dificultad de originar grandes programas completos.

Limitaciones de los modelos mundiales programáticos existentes

Investigaciones recientes han investigado el uso de programas para representar modelos mundiales, a menudo aprovechando grandes modelos de idiomas para sintetizar las funciones de transición de Python. Enfoques como WorldCoder y CodeworldModels generan un solo software extenso, que limita su escalabilidad en entornos complejos y su capacidad para manejar la incertidumbre y la observabilidad parcial. Algunos estudios se centran en modelos simbólicos de stop nivel para la planificación robótica al integrar la entrada visual con razonamiento indefinido. Los esfuerzos anteriores emplearon lenguajes específicos de dominio restringidos adaptados a puntos de relato específicos o utilizadas estructuras conceptualmente relacionadas, como gráficos de factores en redes de esquemas. Los modelos teóricos, como Aixi, todavía exploran el modelado mundial utilizando máquinas Turing y representaciones basadas en la historia.

Preparación de Poe-World: modelos mundiales modulares y probabilísticos

Los investigadores de Cornell, Cambridge, el Instituto Alan Turing y la Universidad de Dalhousie presentan a Poe-World, un enfoque para memorizar modelos simbólicos del mundo al combinar muchos pequeños programas sintetizados por LLM, cada uno capturando una regla específica del medio dominio. En lado de crear un software extenso, Poe-World construye una estructura probabilística modular que puede memorizar de breves manifestaciones. Esta configuración apoya la universalización en nuevas situaciones, lo que permite a los agentes planificar de modo efectiva, incluso en juegos complejos como Pong y la venganza de Montezuma. Si acertadamente no modela datos de píxeles sin procesar, aprende de las observaciones de objetos simbólicos y enfatiza el modelado preciso sobre la exploración para la toma de decisiones eficientes.

Mecanismo de edificación y formación de Poe-World

Poe-World modela el entorno como una combinación de pequeños programas de Python interpretables llamados expertos programáticos, cada uno responsable de una regla o comportamiento específico. Estos expertos están ponderados y combinados para predecir estados futuros basados ​​en observaciones y acciones pasadas. Al tratar las características como condicionalmente independientes y memorizar de la historia completa, el maniquí sigue siendo modular y escalable. Las restricciones duras refinan las predicciones, y los expertos se actualizan o se podan a medida que se recopilan nuevos datos. El maniquí respalda la planificación y el formación de refuerzo al fingir posibles resultados futuros, permitiendo una toma de decisiones válido. Los programas se sintetizan utilizando LLM y se interpretan probabilísticamente, con pesos de expertos optimizados a través del descenso de gradiente.

Evaluación empírica en juegos de Atari

El estudio evalúa a su agente, Poe-World + Planner, sobre el pong de Atari y la venganza de Montezuma, incluidas versiones modificadas más duras de estos juegos. Utilizando datos de demostración mínimos, su método supera a las líneas de cojín, como PPO, React y WorldCoder, particularmente en entornos de bajos datos. Poe-World demuestra una cachas universalización al modelar con precisión la dinámica del coyuntura, incluso en entornos alterados sin nuevas demostraciones. Además es el único método para anotar constantemente positivamente en la venganza de Montezuma. Las políticas previas a la capacitación en el entorno simulado de Poe-World aceleran el formación del mundo existente. A diferencia de los modelos limitados y a veces inexactos de WorldCoder, Poe-World produce representaciones más detalladas y conscientes de las restricciones, lo que lleva a una mejor planificación y un comportamiento más realista en el coyuntura.

Conclusión: programas simbólicos y modulares para la planificación de IA escalable

En conclusión, comprender cómo funciona el mundo es crucial para construir agentes adaptativos de IA; Sin requisa, los modelos tradicionales de formación profundo requieren grandes conjuntos de datos y lucha para refrescar de modo flexible con una entrada limitada. Inspirado en cómo los humanos y los sistemas simbólicos recombinan el conocimiento, el estudio propone Poe-World. Este método utiliza grandes modelos de idioma para sintetizar «expertos» programáticos modulares que representan diferentes partes del mundo. Estos expertos combinan composición para formar un maniquí mundial simbólico e interpretable que respalda una cachas universalización de datos mínimos. Probado en juegos de Atari como la venganza de Pong y Montezuma, este enfoque demuestra una planificación y rendimiento eficientes, incluso en escenarios desconocidos. El código y las demostraciones están disponibles públicamente.


Mira el Papel, Página del tesina y Página de Github. Todo el crédito por esta investigación va a los investigadores de este tesina. Encima, siéntete expedito de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble nivel en IIT Madras, le apasiona aplicar tecnología e IA para encarar los desafíos del mundo existente. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida existente.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *