Athrun Data Intelligence



Imagina que un autómata te está ayudando a enjuagar los platos. Le pides que agarre un tazón suave del fregadero, pero su pinza pierde levemente la marca.

Utilizando un nuevo situación desarrollado por los investigadores del MIT y NVIDIA, podría corregir el comportamiento de ese autómata con interacciones simples. El método le permitiría apuntar al tazón o rastrear una trayectoria en una pantalla, o simplemente darle un empujón al rama del autómata en la dirección correcta.

A diferencia de otros métodos para corregir el comportamiento del autómata, esta técnica no requiere que los usuarios recopilen nuevos datos y vuelvan a entrenar el maniquí de formación involuntario que alimenta el cerebro del autómata. Permite que un autómata use comentarios humanos intuitivos y en tiempo existente para designar una secuencia de actividad factible que se acerque lo más posible para satisfacer la intención del sucesor.

Cuando los investigadores probaron su situación, su tasa de éxito fue un 21 por ciento más adhesión que un método posible que no aprovechó las intervenciones humanas.

A la larga, este situación podría permitir que un sucesor guíe más fácilmente a un autómata capacitado en manufactura para realizar una amplia variedad de tareas domésticas a pesar de que el autómata nunca ha trillado su hogar o los objetos en él.

“No podemos esperar que laicos realice una compilación de datos y ajuste un maniquí de red neuronal. El consumidor esperará que el autómata funcione fuera de la caja, y si no es así, querría un mecanismo intuitivo para personalizarlo. Ese es el desafío que abordamos en este trabajo ”, dice Felix Yanwei Wang, estudiante titulado de Ingeniería Eléctrica e Informática (CEE) y autor principal de A Documento sobre este método.

Sus coautores incluyen a Lirui Wang PhD ’24 y Yilun du PhD ’24; La autora senior Julie Shah, profesora del MIT de aeronáutica y astronautia y directora del Congregación de Robótica Interactiva en el Laboratorio de Informática e Inteligencia Industrial (CSAIL); así como Balakumar Sundaralingam, Xuning Yang, Yu-Wei Chao, Claudia Perez-D’arpino PhD ’19 y Dieter Fox of Nvidia. La investigación se presentará en la Conferencia Internacional sobre Robots y Automatización.

Mitigación de desalineación

Recientemente, los investigadores han comenzado a usar modelos de IA generativos previamente entrenados para estudiar una «política» o un conjunto de reglas, que un autómata sigue para completar una actividad. Los modelos generativos pueden resolver múltiples tareas complejas.

Durante el entrenamiento, el maniquí solo ve movimientos de autómata factibles, por lo que aprende a gestar trayectorias válidas para que el autómata lo siga.

Si perfectamente estas trayectorias son válidas, eso no significa que siempre se alineen con la intención de un sucesor en el mundo existente. El autómata podría ocurrir sido entrenado para agarrar cajas de un estante sin derribarlos, pero podría no alcanzar la caja encima de la estantería de determinado si el estante está orientado de modo diferente a las que vio en el entrenamiento.

Para exceder estas fallas, los ingenieros generalmente recopilan datos que demuestran la nueva tarea y vuelven a entrenar el maniquí generativo, un proceso costoso y que requiere mucho tiempo que requiere experiencia en el formación involuntario.

En cambio, los investigadores del MIT querían permitir a los usuarios dirigir el comportamiento del autómata durante el despliegue cuando comete un error.

Pero si un humano interactúa con el autómata para corregir su comportamiento, eso podría causar inadvertidamente que el maniquí generativo elija una actividad inválida. Puede lograr a la caja que el sucesor desea, pero elimine los libros del estante en el proceso.

«Queremos permitir que el sucesor interactúe con el autómata sin introducir ese tipo de errores, por lo que obtenemos un comportamiento mucho más formado con la intención del sucesor durante la implementación, pero que asimismo es válido y factible», dice Wang.

Su situación logra esto al proporcionar al sucesor tres formas intuitivas de corregir el comportamiento del autómata, cada uno de los cuales ofrece ciertas ventajas.

Primero, el sucesor puede señalar el objeto que desea que el autómata manipule en una interfaz que muestra su panorama de cámara. En segundo sitio, pueden rastrear una trayectoria en esa interfaz, lo que les permite especificar cómo quieren que el autómata magnitud el objeto. En tercer sitio, pueden mover físicamente el rama del autómata en la dirección en la que quieren que siga.

“Cuando mapeas una imagen 2D del entorno a acciones en un espacio 3D, se pierde cierta información. Empujar físicamente el autómata es la forma más directa de especificar la intención del sucesor sin perder ninguna información ”, dice Wang.

Muestreo para el éxito

Para asegurar que estas interacciones no causen que el autómata elija una actividad inválida, como colisionar con otros objetos, los investigadores usan un procedimiento de muestreo específico. Esta técnica permite al maniquí designar una actividad del conjunto de acciones válidas que se alinea más estrechamente con el objetivo del sucesor.

«En sitio de simplemente imponer la voluntad del sucesor, le damos al autómata una idea de lo que el sucesor pretende, pero dejamos que el procedimiento de muestreo oscile en torno a su propio conjunto de comportamientos aprendidos», explica Wang.

Este método de muestreo permitió al situación de los investigadores exceder los otros métodos con los que lo compararon durante las simulaciones y experimentos con un rama autómata existente en una cocina de muñeco.

Si perfectamente su método puede no siempre completar la tarea de inmediato, ofrece a los usuarios la preeminencia de poder corregir inmediatamente el autómata si lo ven haciendo poco mal, en sitio de esperar a que termine y luego darle nuevas instrucciones.

Por otra parte, a posteriori de que un sucesor empuja el autómata varias veces hasta que recoge el tazón correcto, podría registrar esa actividad correctiva e incorporarla a su comportamiento a través de la capacitación futura. Luego, al día posterior, el autómata podría coger el tazón correcto sin precisar un empujón.

«Pero la secreto para esa alivio continua es tener una forma de que el sucesor interactúe con el autómata, que es lo que hemos mostrado aquí», dice Wang.

En el futuro, los investigadores quieren aumentar la velocidad del procedimiento de muestreo mientras mantienen o mejoran su rendimiento. Además quieren observar con la gestación de políticas de robots en entornos novedosos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *