
Los chatbots como ChatGPT y Claude han experimentado un aumento meteórico en su uso en los últimos tres abriles porque pueden ayudarle con una amplia tono de tareas. Ya sea que esté escribiendo sonetos de Shakespeare, depurando código o necesitando una respuesta a una pregunta de trivia oscura, los sistemas de inteligencia sintético parecen tenerlo cubierto. ¿La fuente de esta versatilidad? Miles de millones, o incluso billones, de puntos de datos textuales en Internet.
Sin confiscación, esos datos no son suficientes para enseñarle a un androide a ser un asistente útil en el hogar o en una manufactura. Para comprender cómo manipular, apilar y colocar diversas disposiciones de objetos en diversos entornos, los robots necesitan demostraciones. Puede pensar en los datos de entrenamiento de robots como una colección de videos instructivos que guían los sistemas a través de cada movimiento de una tarea. Compilar estas demostraciones en robots reales lleva mucho tiempo y no es perfectamente repetible, por lo que los ingenieros han creado datos de entrenamiento generando simulaciones con IA (que a menudo no reflejan la física del mundo actual) o elaborando tediosamente a mano cada entorno digital desde cero.
Los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Fabricado (CSAIL) del MIT y del Instituto de Investigación Toyota pueden sobrevenir incompatible una guisa de crear los campos de entrenamiento diversos y realistas que los robots necesitan. Su «vivientes de ambiente orientable«El enfoque crea escenas digitales de cosas como cocinas, salas de estar y restaurantes que los ingenieros pueden usar para fingir muchas interacciones y escenarios del mundo actual. Entrenada en más de 44 millones de salas 3D llenas de modelos de objetos como mesas y platos, la útil coloca los activos existentes en nuevas escenas y luego refina cada una en un entorno realista y físicamente preciso.
La vivientes de escenas orientable crea estos mundos 3D «dirigiendo» un maniquí de difusión (un sistema de inteligencia sintético que genera una imagen a partir de ruido casual) en dirección a una ambiente que encontrarías en la vida cotidiana. Los investigadores utilizaron este sistema generativo para “pintar” un entorno, rellenando rudimentos particulares en toda la ambiente. Puedes imaginar un pared en blanco que de repente se convierte en una cocina llena de objetos 3D, que se reorganizan gradualmente en una ambiente que imita la física del mundo actual. Por ejemplo, el sistema garantiza que un tenedor no pase a través de un recipiente sobre una mesa, un error global en los gráficos 3D conocido como «recortadura», donde los modelos se superponen o se cruzan.
Sin confiscación, cómo exactamente la vivientes de escenas orientable derrotero su creación en dirección a el realismo depende de la organización que elija. Su organización principal es la “búsqueda de árboles de Monte Carlo” (MCTS), donde el maniquí crea una serie de escenas alternativas, completándolas de diferentes maneras para conquistar un objetivo particular (como hacer una ambiente más realista físicamente o incluir tantos rudimentos comestibles como sea posible). Lo utiliza el software de inteligencia sintético AlphaGo para vencer a oponentes humanos en Go (un muestrario similar al ajedrez), ya que el sistema considera posibles secuencias de movimientos antiguamente de designar el más productivo.
«Somos los primeros en aplicar MCTS a la vivientes de escenas enmarcando la tarea de vivientes de escenas como un proceso secuencial de toma de decisiones», dice el estudiante de doctorado del Área de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT, Nicholas Pfaff, investigador de CSAIL y autor principal de un estudio. papel presentando el trabajo. «Seguimos construyendo sobre escenas parciales para producir escenas mejores o más deseadas con el tiempo. Como resultado, MCTS crea escenas que son más complejas que aquellas en las que se entrenó el maniquí de difusión».
En un experiencia particularmente revelador, MCTS agregó la máxima cantidad de objetos a la ambiente de un restaurante simple. Presentaba hasta 34 rudimentos sobre una mesa, incluidas enormes pilas de platos de dim sum, luego de entrenar en escenas con solo 17 objetos en promedio.
La vivientes de escenas orientables además le permite difundir diversos escenarios de entrenamiento mediante el estudios por refuerzo; esencialmente, enseñar un maniquí de difusión para cumplir un objetivo mediante prueba y error. Luego de entrenar con los datos iniciales, su sistema pasa por una segunda etapa de entrenamiento, donde define una retribución (básicamente, un resultado deseado con una puntuación que indica qué tan cerca está de ese objetivo). El maniquí aprende automáticamente a crear escenas con puntuaciones más altas, produciendo a menudo escenarios que son conveniente diferentes de aquellos en los que fue entrenado.
Los usuarios además pueden avisar al sistema directamente escribiendo descripciones visuales específicas (como «una cocina con cuatro manzanas y un cuenco sobre la mesa»). Luego, la vivientes de escenas orientables puede hacer que sus solicitudes cobren vida con precisión. Por ejemplo, la útil siguió con precisión las indicaciones de los usuarios en un 98 por ciento al crear escenas de estantes de despensa y un 86 por ciento en mesas de desayuno desordenadas. Ambas calificaciones suponen una mejoramiento de al menos el 10 por ciento con respecto a métodos comparables como «MiDifusión» y «DifuEscena.”
El sistema además puede completar escenas específicas mediante indicaciones o direcciones de luz (como “crear una disposición de ambiente diferente usando los mismos objetos”). Podrías pedirle que coloque manzanas en varios platos sobre la mesa de la cocina, por ejemplo, o que coloque juegos de mesa y libros en un estante. Básicamente se proxenetismo de “satisfacer el espacio en blanco” colocando rudimentos en espacios vacíos, pero preservando el resto de la ambiente.
Según los investigadores, el punto resistente de su tesina reside en su capacidad de crear muchas escenas que los robóticos efectivamente pueden utilizar. «Una idea esencia de nuestros hallazgos es que está admisiblemente que las escenas en las que entrenamos previamente no se parezcan exactamente a las escenas que efectivamente queremos», dice Pfaff. «Utilizando nuestros métodos de dirección, podemos ir más allá de esa amplia distribución y tomar muestras de una ‘mejor’. En otras palabras, difundir escenas diversas, realistas y alineadas con las tareas en las que efectivamente queremos entrenar a nuestros robots».
Escenas tan vastas se convirtieron en campos de pruebas donde podían morder un androide aparente interactuando con diferentes rudimentos. La máquina colocó cuidadosamente tenedores y cuchillos en un soporte para cubiertos, por ejemplo, y reorganizó el pan en platos en varias configuraciones 3D. Cada simulación parecía fluida y realista, asemejándose al mundo actual, los robots adaptables y orientables que la vivientes de escenas podrían ayudar a entrenar, algún día.
Si admisiblemente el sistema podría ser un camino animador para difundir una gran cantidad de datos de entrenamiento diversos para robots, los investigadores dicen que su trabajo es más admisiblemente una prueba de concepto. En el futuro, les gustaría utilizar IA generativa para crear objetos y escenas completamente nuevos, en sitio de utilizar una biblioteca fija de posibles. Incluso planean incorporar objetos articulados que el androide pueda inaugurar o torcer (como gabinetes o frascos llenos de comida) para hacer las escenas aún más interactivas.
Para hacer que sus entornos virtuales sean aún más realistas, Pfaff y sus colegas pueden incorporar objetos del mundo actual utilizando una biblioteca de objetos y escenas extraídas de imágenes de Internet y utilizando su trabajo previo en «Real2Sim escalable.” Al ampliar cuán diversos y realistas pueden ser los campos de pruebas de robots construidos con IA, el equipo calma construir una comunidad de usuarios que creará una gran cantidad de datos, que luego podrían estar de moda como un conjunto de datos masivo para enseñar diferentes habilidades a los robots diestros.
«Hoy en día, crear escenas realistas para simulación puede ser una tarea conveniente desafiante; la vivientes de procedimientos puede producir fácilmente una gran cantidad de escenas, pero probablemente no serán representativas de los entornos que el androide encontraría en el mundo actual. La creación manual de escenas personalizadas requiere mucho tiempo y es costosa», dice Jeremy Binagia, verificado empollón de Amazon Robotics que no participó en el artículo. «La vivientes de escenas orientables ofrece un mejor enfoque: entrenar un maniquí generativo en una gran colección de escenas preexistentes y adaptarlo (usando una organización como el estudios por refuerzo) a aplicaciones posteriores específicas. En comparación con trabajos anteriores que aprovechan un maniquí de lengua de visión acondicionado en el mercado o se centran solo en organizar objetos en una cuadrícula 2D, este enfoque garantiza la viabilidad física y considera la traducción y rotación 3D completa, lo que permite la vivientes de escenas mucho más interesantes. escenas”.
«La vivientes de escenas orientable con entrenamiento posterior y búsqueda de tiempo de inferencia proporciona un ámbito novedoso y eficaz para automatizar la vivientes de escenas a escalera», dice Rick Cory SM ’08, PhD ’10, robotista del Instituto de Investigación Toyota, quien siquiera participó en el artículo. «Encima, puede difundir escenas ‘nunca antiguamente vistas’ que se consideran importantes para tareas posteriores. En el futuro, la combinación de este ámbito con una gran cantidad de datos de Internet podría desbloquear un hito importante en dirección a la capacitación eficaz de robots para su implementación en el mundo actual».
Pfaff escribió el artículo con el autor principal Russ Tedrake, profesor Toyota de Ingeniería Eléctrica y Ciencias de la Computación, Aeronáutica y Astronáutica e Ingeniería Mecánica en el MIT; vicepresidente senior de grandes modelos de comportamiento en el Instituto de Investigación Toyota; e investigador principal del CSAIL. Otros autores fueron el investigador de robótica del Instituto de Investigación Toyota Hongkai Dai SM ’12, PhD ’16; el líder del equipo e investigador verificado senior Sergey Zakharov; y Shun Iwase, estudiante de doctorado de la Universidad Carnegie Mellon. Su trabajo fue apoyado, en parte, por Amazon y el Instituto de Investigación Toyota. Los investigadores presentaron su trabajo en la Conferencia sobre Formación de Robots (CoRL) en septiembre.