En la clásica caricatura «Los Supersónicos», Rosie, la criada robótica, pasa sin problemas de acaecer la aspiradora por la casa, preparar la cena y sacar la basura. Pero en la vida actual, entrenar un autómata de uso caudillo sigue siendo un gran desafío.
Normalmente, los ingenieros recopilan datos específicos de un determinado autómata y tarea, que utilizan para entrenar al autómata en un entorno controlado. Sin incautación, resumir estos datos es costoso y requiere mucho tiempo, y es probable que el autómata tenga dificultades para adaptarse a entornos o tareas que no ha trillado antiguamente.
Para entrenar mejores robots de uso caudillo, los investigadores del MIT desarrollaron una técnica versátil que combina una enorme cantidad de datos heterogéneos de muchas fuentes en un sistema que puede enseñar a cualquier autómata una amplia serie de tareas.
Su método implica alinear datos de diversos dominios, como simulaciones y robots reales, y múltiples modalidades, incluidos sensores de visión y codificadores de posición del extremidad robótico, en un «habla» compartido que un maniquí generativo de IA puede procesar.
Al combinar una cantidad tan enorme de datos, este enfoque se puede utilizar para entrenar a un autómata para que realice una variedad de tareas sin la carencia de originarse a entrenarlo desde cero cada vez.
Este método podría ser más rápido y menos costoso que las técnicas tradicionales porque requiere muchos menos datos específicos de la tarea. Por otra parte, superó al entrenamiento desde cero en más de un 20 por ciento en simulación y experimentos del mundo actual.
“En robótica, la masa suele afirmar que no tenemos suficientes datos de entrenamiento. Pero en mi opinión, otro gran problema es que los datos provienen de muchos dominios, modalidades y hardware de autómata diferentes. Nuestro trabajo muestra cómo sería posible entrenar un autómata con todos ellos juntos”, dice Lirui Wang, estudiante de posgrado en ingeniería eléctrica e informática (EECS) y autor principal de un artículo sobre esta técnica.
Los coautores de Wang incluyen a su compañero estudiante licenciado de EECS, Jialiang Zhao; Xinlei Chen, irrefutable investigador de Meta; y el autor principal Kaiming He, profesor asociado en EECS y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Sintético (CSAIL). La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Inspirado por los LLM
Una “política” robótica toma observaciones de sensores, como imágenes de cámaras o mediciones propioceptivas que rastrean la velocidad y posicionan un extremidad robótico, y luego le dicen al autómata cómo y dónde moverse.
Las políticas generalmente se entrenan mediante el educación por imitación, lo que significa que un humano demuestra acciones o teleopera un autómata para suscitar datos, que se introducen en un maniquí de inteligencia fabricado que aprende la política. Oportuno a que este método utiliza una pequeña cantidad de datos específicos de la tarea, los robots a menudo fallan cuando cambia su entorno o tarea.
Para desarrollar un mejor enfoque, Wang y sus colaboradores se inspiraron en grandes modelos de habla como GPT-4.
Estos modelos se entrenan previamente utilizando una enorme cantidad de datos de idiomas diversos y luego se ajustan alimentándolos con una pequeña cantidad de datos específicos de la tarea. El entrenamiento previo con tantos datos ayuda a que los modelos se adapten para desempeñarse aceptablemente en una variedad de tareas.
“En el dominio del habla, todos los datos son solo oraciones. En robótica, dada toda la heterogeneidad de los datos, si queremos realizar un entrenamiento previo de modo similar, necesitamos una construcción diferente”, afirma.
Los datos robóticos adoptan muchas formas, desde imágenes de cámaras hasta instrucciones de habla y mapas de profundidad. Al mismo tiempo, cada autómata es mecánicamente único, con un número y orientación diferentes de brazos, pinzas y sensores. Por otra parte, los entornos donde se recopilan datos varían ampliamente.
Los investigadores del MIT desarrollaron una nueva construcción emplazamiento Transformadores heterogéneos preentrenados (HPT) que unifica datos de estas variadas modalidades y dominios.
Colocaron un maniquí de educación obligatorio conocido como transformador en el medio de su construcción, que procesa entradas de visión y propiocepción. Un transformador es el mismo tipo de maniquí que forma la columna vertebral de los grandes modelos lingüísticos.
Los investigadores alinean los datos de la visión y la propiocepción en el mismo tipo de entrada, llamado token, que el transformador puede procesar. Cada entrada se representa con el mismo número fijo de tokens.
Luego, el transformador asigna todas las entradas a un espacio compartido y crece hasta convertirse en un enorme maniquí previamente entrenado a medida que procesa y aprende de más datos. Cuanto más espacioso sea el transformador, mejor funcionará.
Un favorecido solo necesita proporcionar a HPT una pequeña cantidad de datos sobre el diseño, la configuración y la tarea de su autómata y la tarea que desea que realice. Luego, HPT transfiere el conocimiento que el transformador adquirió durante el entrenamiento previo para educarse la nueva tarea.
Permitir movimientos diestros
Uno de los mayores desafíos del explicación de HPT fue construir un conjunto de datos masivo para preparar previamente el transformador, que incluía 52 conjuntos de datos con más de 200.000 trayectorias de robots en cuatro categorías, incluidos videos de demostración humanos y simulación.
Los investigadores todavía necesitaban desarrollar una forma apto de convertir señales de propiocepción sin procesar procedentes de una serie de sensores en datos que el transformador pudiera manejar.
“La propiocepción es secreto para permitir muchos movimientos diestros. Como el número de tokens en nuestra construcción es siempre el mismo, damos la misma importancia a la propiocepción y la visión”, explica Wang.
Cuando probaron HPT, mejoró el rendimiento del autómata en más de un 20 por ciento en tareas de simulación y del mundo actual, en comparación con el entrenamiento desde cero cada vez. Incluso cuando la tarea era muy diferente de los datos previos al entrenamiento, HPT aún mejoró el rendimiento.
“Este artículo proporciona un enfoque novedoso para entrenar una política única en múltiples realizaciones de robots. Esto permite la capacitación en diversos conjuntos de datos, lo que permite que los métodos de educación de robots aumenten significativamente el tamaño de los conjuntos de datos en los que pueden entrenar. Además permite que el maniquí se adapte rápidamente a nuevas realizaciones de robots, lo cual es importante ya que continuamente se producen nuevos diseños de robots”, dice David Held, profesor asociado del Instituto de Robótica de la Universidad Carnegie Mellon, que no participó en este trabajo.
En el futuro, los investigadores quieren estudiar cómo la complejidad de datos podría mejorar el rendimiento de HPT. Además quieren mejorar HPT para que pueda procesar datos sin etiquetar como GPT-4 y otros modelos de habla de gran tamaño.
“Nuestro sueño es tener un cerebro de autómata universal que puedas descargar y usar para tu autómata sin ningún tipo de entrenamiento. Si aceptablemente estamos al punto que en las primeras etapas, vamos a seguir presionando con fuerza y esperamos que la ampliación conduzca a un gran avance en las políticas robóticas, como ocurrió con los grandes modelos de habla”, afirma.
Este trabajo fue financiado, en parte, por la Iniciativa Tecnológica del Gran Boston de Amazon y el Instituto de Investigación Toyota.