Si determinado le aconseja «conocer sus límites», probablemente le esté sugiriendo que haga cosas como hacer prueba con moderación. Sin confiscación, para un autómata, el eslogan representa restricciones de enseñanza, o limitaciones de una tarea específica interiormente del entorno de la máquina, para realizar las tareas de forma segura y correcta.
Por ejemplo, imagine pedirle a un autómata que limpie su cocina cuando no comprende la física de su entorno. ¿Cómo puede la máquina suscitar un plan práctico de varios pasos para asegurar que la habitación esté impecable? Los modelos de verbo ínclito (LLM) pueden acercarlos, pero si el maniquí solo se entrena con texto, es probable que pierda detalles esencia sobre las limitaciones físicas del autómata, como qué tan allí puede asistir o si hay obstáculos cercanos que evitar. Cíñete solo a los LLM y es probable que termines limpiando las manchas de pasta de las tablas del pavimento.
Para orientar a los robots en la ejecución de estas tareas abiertas, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Industrial (CSAIL) del MIT utilizaron modelos de visión para ver qué hay cerca de la máquina y modelar sus limitaciones. La táctica del equipo implica que un LLM esboce un plan que se verifica en un simulador para asegurar que sea seguro y realista. Si esa secuencia de acciones es inviable, el maniquí de verbo generará un nuevo plan, hasta asistir a uno que el autómata pueda ejecutar.
Este método de prueba y error, que los investigadores denominan «Planificación de robots mediante código para la satisfacción continua de restricciones» (PRoC3S), prueba planes a abundante plazo para asegurar que satisfagan todas las restricciones y permite que un autómata realice tareas tan diversas como escribir. humanidades individuales, dibujar una suerte y clasificar y colocar bloques en diferentes posiciones. En el futuro, PRoC3S podría ayudar a los robots a completar tareas más complejas en entornos dinámicos como las casas, donde se les puede pedir que realicen una tarea común compuesta de muchos pasos (como “prepárame el desayuno”).
«Los LLM y los sistemas robóticos clásicos, como los planificadores de tareas y movimientos, no pueden ejecutar este tipo de tareas por sí solos, pero juntos, su sinergia hace posible la resolución abierta de problemas», dice el estudiante de doctorado Nishanth Kumar SM ’24, codirector autor de un nuevo artículo sobre PRoC3S. “Estamos creando una simulación sobre la marcha de lo que rodea al autómata y probando muchos planes de acto posibles. Los modelos de visión nos ayudan a crear un mundo digital muy realista que permite al autómata razonar sobre acciones factibles para cada paso de un plan a abundante plazo”.
El trabajo del equipo se presentó el mes pasado en un documento presentado en la Conferencia sobre Formación de Robots (CoRL) en Munich, Alemania.
Enseñarle a un autómata sus límites para tareas abiertas
MIT CSAIL
El método de los investigadores utiliza un LLM previamente capacitado en textos de Internet. Antaño de pedirle a PRoC3S que realizara una tarea, el equipo proporcionó a su maniquí de verbo una tarea de muestra (como dibujar un cuadrado) que está relacionada con la tarea objetivo (dibujar una suerte). La tarea de muestra incluye una descripción de la actividad, un plan a abundante plazo y detalles relevantes sobre el entorno del autómata.
Pero, ¿cómo les fue a estos planes en la habilidad? En las simulaciones, PRoC3S dibujó con éxito estrellas y humanidades ocho de cada 10 veces cada una. Además podría apilar bloques digitales en pirámides y líneas, y colocar rudimentos con precisión, como frutas en un plato. En cada una de estas demostraciones digitales, el método CSAIL completó la tarea solicitada de modo más consistente que enfoques comparables como “LLM3” y “Código como políticas”.
A continuación, los ingenieros de CSAIL llevaron su enfoque al mundo actual. Su método desarrolló y ejecutó planos en un remo robótico, enseñándole a colocar bloques en carrera recta. PRoC3S todavía permitió a la máquina colocar bloques azules y rojos en tazones iguales y mover todos los objetos cerca del centro de una mesa.
Kumar y el coautor principal Aidan Curtis SM ’23, quien todavía es estudiante de doctorado que trabaja en CSAIL, dicen que estos hallazgos indican cómo un LLM puede desarrollar planes más seguros en los que los humanos puedan encargar para funcionar en la habilidad. Los investigadores imaginan un autómata doméstico al que se le pueda dar una solicitud más común (como «tráeme algunos chips») y descubrir de modo confiable los pasos específicos necesarios para ejecutarla. PRoC3S podría ayudar a un autómata a probar planes en un entorno digital idéntico para encontrar un curso de acto que funcione y, lo que es más importante, ofrecerle un refrigerio interesante.
Para trabajos futuros, los investigadores pretenden mejorar los resultados utilizando un simulador de física más renovador y ampliarlos a tareas más elaboradas y con horizontes más amplios mediante técnicas de búsqueda de datos más escalables. Adicionalmente, planean aplicar PRoC3S a robots móviles, como un cuadrúpedo, para tareas que incluyan caminar y escanear los alrededores.
«El uso de modelos básicos como ChatGPT para controlar las acciones de los robots puede provocar comportamientos inseguros o incorrectos correcto a alucinaciones», dice Eric Rosen, investigador del AI Institute, que no participa en la investigación. “PRoC3S aborda este problema aprovechando modelos básicos para orientar tareas de suspensión nivel, mientras emplea técnicas de inteligencia fabricado que razonan explícitamente sobre el mundo para asegurar acciones verificablemente seguras y correctas. Esta combinación de enfoques basados en planificación y basados en datos puede ser esencia para desarrollar robots capaces de comprender y realizar de modo confiable una grado de tareas más amplia de lo que es posible actualmente”.
Los coautores de Kumar y Curtis todavía son afiliados de CSAIL: el investigador universitario del MIT Jing Cao y los profesores del Sección de Ingeniería Eléctrica y Ciencias de la Computación del MIT Leslie Pack Kaelbling y Tomás Verde-Pérez. Su trabajo fue apoyado, en parte, por la Fundación Doméstico de Ciencias, la Oficina de Investigación Científica de la Fuerza Aérea, la Oficina de Investigación Naval, la Oficina de Investigación del Ejército, MIT Quest for Intelligence y el Instituto AI.