Athrun Data Intelligence



Un autómata doméstico capacitado para realizar tareas domésticas en una factoría puede dejar de fregar efectivamente el fregadero o sacar la basura cuando se despliega en la cocina de un heredero, ya que este nuevo entorno difiere de su espacio de entrenamiento.

Para evitar esto, los ingenieros a menudo intentan igualar el entorno de entrenamiento simulado lo más cerca posible con el mundo efectivo donde se implementará el agente.

Sin confiscación, los investigadores del MIT y en otros lugares ahora han contrario que, a pesar de esta sensatez convencional, a veces el entrenamiento en un entorno completamente diferente produce un agente de inteligencia industrial de mejor rendimiento.

Sus resultados indican que, en algunas situaciones, el entrenamiento de un agente de IA simulado en un mundo con menos incertidumbre o «ruido», le permitió funcionar mejor que un agente de IA competidor entrenado en el mismo mundo ruidoso que usaron para probar a uno y otro agentes.

Los investigadores llaman a este engendro inesperado el meta de entrenamiento en interiores.

“Si aprendemos a esparcirse al tenis en un entorno interior donde no hay ruido, podríamos ser capaces de dominar más fácilmente diferentes tiros. Luego, si nos mudamos a un entorno más ruidoso, como una cancha de tenis ventosa, podríamos tener una veterano probabilidad de esparcirse al tenis aceptablemente que si comenzamos a estudiar en el entorno ventoso «, explica Serena Bono, una asistente de investigación en el MIT Media Lab y Autor principal de un artículo sobre el meta de entrenamiento interior.

Los investigadores estudiaron este engendro entrenando a los agentes de IA para esparcirse a los juegos de Atari, lo que modificaron al ampliar cierta imprevisibilidad. Se sorprendieron al descubrir que el meta de entrenamiento interior se produjo constantemente en los juegos de Atari y las variaciones del serie.

Esperan que estos resultados alimenten la investigación adicional para desarrollar mejores métodos de capacitación para los agentes de IA.

“Este es un eje completamente nuevo en el que pensar. En oficio de tratar de igualar los entornos de entrenamiento y prueba, podemos construir entornos simulados donde un agente de IA aprende aún mejor ”, agrega el coautor Spandan Madan, un estudiante investido de la Universidad de Harvard.

Bono y Madan se unen en el informe por Ishaan Grover, un estudiante investido del MIT; Mao Yasueda, un estudiante investido en la Universidad de Yale; Cynthia Breazeal, profesora de artes y ciencias de los medios y líder del liga de robótica personal en el MIT Media Lab; Hanspeter Pfister, el profesor de informática de Wang en Harvard; y Gabriel Kreiman, profesor de la Maña de Medicina de Harvard. La investigación se presentará en la Asociación para el Avance de la Conferencia de Inteligencia Fabricado.

Problemas de capacitación

Los investigadores se propusieron explorar por qué los agentes de estudios de refuerzo tienden a tener un rendimiento tan triste cuando se prueban en entornos que difieren de su espacio de entrenamiento.

El estudios de refuerzo es un método de prueba y error en el que el agente explora un espacio de capacitación y aprende a tomar medidas que maximizan su remuneración.

El equipo desarrolló una técnica para ampliar explícitamente una cierta cantidad de ruido a un punto del problema de estudios de refuerzo llamado función de transición. La función de transición define la probabilidad de que un agente se mueva de un estado a otro, según la argumento que elija.

Si el agente está jugando Pac-Man, una función de transición podría puntualizar la probabilidad de que los fantasmas en el tablero de serie se muevan en torno a hacia lo alto, en torno a debajo, la izquierda o la derecha. En el estudios de refuerzo habitual, la IA sería entrenada y probada utilizando la misma función de transición.

Los investigadores agregaron ruido a la función de transición con este enfoque convencional y, como se esperaba, perjudicó el rendimiento de Pac-Man del agente.

Pero cuando los investigadores entrenaron al agente con un serie de Pac-Man sin ruido, lo probaron en un entorno donde inyectaron ruido en la función de transición, funcionó mejor que un agente entrenado en el ruidoso serie.

“La regla caudillo es que debe intentar capturar la función de transición de la condición de despliegue, así como puede durante la capacitación para obtener el mayor rendimiento por su caudal. Efectivamente probamos esta visión hasta la homicidio porque no podíamos creerlo nosotros mismos ”, dice Madan.

Inyectar cantidades variables de ruido en la función de transición permitió a los investigadores probar muchos entornos, pero no creó juegos realistas. Cuanto más ruido inyectara en Pac-Man, más probabilidades de los fantasmas se teletransportarían al azar a diferentes cuadrados.

Para ver si el meta de entrenamiento en interiores ocurrió en los juegos normales de Pac-Man, ajustaron las probabilidades subyacentes, por lo que los fantasmas se movían normalmente, pero tenían más probabilidades de moverse en torno a hacia lo alto y en torno a debajo, en oficio de izquierda y derecha. Los agentes de IA entrenados en entornos libres de ruido aún funcionaban mejor en estos juegos realistas.

“No solo se debió a la forma en que agregamos ruido para crear entornos a propósito. Esto parece ser una propiedad del problema de estudios de refuerzo. Y eso fue aún más sorprendente verlo ”, dice Bono.

Exploración de exploración

Cuando los investigadores cavaron más profundamente en averiguación de una explicación, vieron algunas correlaciones en cómo los agentes de IA exploran el espacio de entrenamiento.

Cuando uno y otro agentes de IA exploran principalmente las mismas áreas, el agente entrenado en el entorno no ruido funciona mejor, tal vez porque es más ligera para el agente estudiar las reglas del serie sin la interferencia del ruido.

Si sus patrones de exploración son diferentes, entonces el agente entrenado en el entorno ruidoso tiende a funcionar mejor. Esto podría ocurrir porque el agente necesita comprender los patrones que no puede estudiar en el entorno independiente de ruido.

«Si solo aprendo a esparcirse al tenis con mi derecha en el entorno no ruido, pero luego en el ruidoso, todavía tengo que esparcirse con mi revés, no jugaré tan aceptablemente en el entorno no ruido», explica Bono .

En el futuro, los investigadores esperan explorar cómo podría ocurrir el meta de capacitación en interiores en entornos de estudios de refuerzo más complejos, o con otras técnicas como la visión por computadora y el procesamiento del estilo natural. Igualmente quieren construir entornos de entrenamiento diseñados para emplear el meta de entrenamiento en interiores, lo que podría ayudar a los agentes de IA a funcionar mejor en entornos inciertos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *