Athrun Data Intelligence



Imagínese tener que ordenar una cocina desordenada, empezando por una encimera llena de paquetes de salsa. Si su objetivo es estafar el mostrador, pueden barrer los paquetes como corro. Sin secuestro, si quisiera separar primero los paquetes de mostaza antiguamente de tirar el resto, los clasificaría de guisa más selectiva, por tipo de salsa. Y si, entre las mostazas, anhelaba la Hermandad Poupon, encontrar esta marca concreta requeriría una búsqueda más cuidadosa.

Los ingenieros del MIT han desarrollado un método que permite a los robots tomar decisiones igualmente intuitivas y relevantes para las tareas.

El nuevo enfoque del equipo, llamado Clio, permite a un autómata identificar las partes de una número que importan, dadas las tareas que tiene entre manos. Con Clio, un autómata toma una nómina de tareas descritas en idioma natural y, basándose en esas tareas, determina el nivel de granularidad necesario para interpretar su entorno y «memorar» sólo las partes de una número que son relevantes.

En experimentos reales que abarcaron desde un cubículo abarrotado hasta un edificio de cinco pisos en el campus del MIT, el equipo utilizó Clio para segmentar automáticamente una número en diferentes niveles de granularidad, basándose en un conjunto de tareas especificadas en indicaciones en idioma natural, como «mover estante». de revistas” y “conseguir un dispensario de primeros auxilios”.

El equipo igualmente ejecutó Clio en tiempo verdadero en un autómata cuadrúpedo. Mientras el autómata exploraba un edificio de oficinas, Clio identificó y mapeó solo aquellas partes de la número que se relacionaban con las tareas del autómata (como recuperar un utensilio para perros mientras ignoraba montones de suministros de oficina), lo que le permitió al autómata agarrar los objetos de interés.

Clio lleva el nombre de la musa griega de la historia, por su capacidad para identificar y memorar sólo los principios que importan para una tarea determinada. Los investigadores imaginan que Clio sería útil en muchas situaciones y entornos en los que un autómata tendría que inspeccionar rápidamente y entender su entorno en el contexto de su tarea asignada.

«La búsqueda y el rescate son la aplicación que motiva este trabajo, pero Clio igualmente puede impulsar robots domésticos y robots que trabajan en una factoría inmediato con humanos», dice Luca Carlone, profesor asociado en el Área de Aeronáutica y Astronáutica del MIT (AeroAstro), investigador principal en el Laboratorio de Sistemas de Información y Valentía (LIDS), y director del Laboratorio MIT SPARK. «Se comercio positivamente de ayudar al autómata a comprender el entorno y lo que debe memorar para admitir a promontorio su delegación».

El equipo detalla sus resultados en un estudio que aparece hoy en la revista. Cartas de Robótica y Automatización. Los coautores de Carlone incluyen miembros del SPARK Lab: Dominic Maggio, Yun Chang, Nathan Hughes y Lukas Schmid; y miembros del Laboratorio Lincoln del MIT: Matthew Trang, Dan Griffith, Carlyn Dougherty y Eric Cristofalo.

Campos abiertos

Grandes avances en los campos de la visión por computadora y el procesamiento del idioma natural han permitido a los robots identificar objetos en su entorno. Pero hasta hace poco, los robots sólo podían hacerlo en escenarios “cerrados”, donde están programados para trabajar en un entorno cuidadosamente seleccionado y controlado, con un número finito de objetos que el autómata ha sido previamente entrenado para declarar.

En los últimos primaveras, los investigadores han adoptivo un enfoque más «campechano» para permitir que los robots reconozcan objetos en entornos más realistas. En el campo del registro de conjuntos abiertos, los investigadores han aplicado herramientas de educación profundo para construir redes neuronales que pueden procesar miles de millones de imágenes de Internet, inmediato con el texto asociado a cada imagen (como la foto de un perro de un amigo en Facebook, con el título «Conoce ¡Mi nuevo hijuelo!”).

A partir de millones de pares de imagen y texto, una red neuronal aprende y luego identifica aquellos segmentos de una número que son característicos de ciertos términos, como un perro. Luego, un autómata puede aplicar esa red neuronal para detectar a un perro en una número totalmente nueva.

Pero todavía queda un desafío en cuanto a cómo analizar una número de una guisa útil que sea relevante para una tarea particular.

«Los métodos típicos elegirán un nivel de granularidad fijo y injustificado para determinar cómo fusionar segmentos de una número en lo que se puede considerar como un ‘objeto'», dice Maggio. “Sin secuestro, la granularidad de lo que llamamos ‘objeto’ en sinceridad está relacionada con lo que el autómata tiene que hacer. Si esa granularidad se arregla sin considerar las tareas, entonces el autómata puede terminar con un planisferio que no es útil para sus tareas”.

Cuello de botella de información

Con Clio, el equipo del MIT pretendía permitir que los robots interpretaran su entorno con un nivel de granularidad que pudiera ajustarse automáticamente a las tareas en cuestión.

Por ejemplo, dada la tarea de mover una pila de libros a un estante, el autómata debería poder determinar que toda la pila de libros es el objeto relevante para la tarea. Del mismo modo, si la tarea fuera mover sólo el texto verde del resto de la pila, el autómata debería distinguir el texto verde como un único objeto objetivo e ignorar el resto de la número, incluidos los otros libros de la pila.

El enfoque del equipo combina visión por computadora de última coexistentes y grandes modelos de idioma que comprenden redes neuronales que establecen conexiones entre millones de imágenes de código campechano y texto semántico. Todavía incorporan herramientas de mapeo que dividen automáticamente una imagen en muchos segmentos pequeños, que pueden introducirse en la red neuronal para determinar si ciertos segmentos son semánticamente similares. Luego, los investigadores aprovechan una idea de la teoría de la información clásica citación “cuello de botella de la información”, que utilizan para comprimir una serie de segmentos de imágenes de una guisa que selecciona y almacena los segmentos que son semánticamente más relevantes para una tarea determinada.

“Por ejemplo, digamos que hay un montón de libros en la número y mi tarea es simplemente conseguir el texto verde. En ese caso, empujamos toda esta información sobre la número a través de este cuello de botella y terminamos con un corro de segmentos que representan el texto verde”, explica Maggio. “Todos los demás segmentos que no son relevantes simplemente se agrupan en un corro que simplemente podemos eliminar. Y nos queda un objeto con la granularidad adecuada que necesito para realizar mi tarea”.

Los investigadores demostraron Clio en diferentes entornos del mundo verdadero.

«Lo que pensamos que sería un prueba positivamente sensato sería utilizar Clio en mi vivienda, donde no hice ninguna honestidad de antemano», dice Maggio.

El equipo elaboró ​​una nómina de tareas en idioma natural, como “mover un montón de ropa”, y luego aplicó Clio a imágenes del complicado vivienda de Maggio. En estos casos, Clio pudo segmentar rápidamente escenas del vivienda y suministrar los segmentos a través del operación Information Bottleneck para identificar aquellos segmentos que componían la pila de ropa.

Todavía ejecutaron Clio en el autómata cuadrúpedo de Boston Dynamic, Spot. Le dieron al autómata una nómina de tareas para completar, y mientras el autómata exploraba y mapeaba el interior de un edificio de oficinas, Clio ejecutó en tiempo verdadero una computadora a lado montada en Spot, para separar segmentos en las escenas mapeadas que relacionarse visualmente con la tarea dada. El método generó un planisferio superpuesto que mostraba solo los objetos objetivo, que luego el autómata utilizó para acercarse a los objetos identificados y completar físicamente la tarea.

«Ejecutar Clio en tiempo verdadero fue un gran logro para el equipo», dice Maggio. «Muchos trabajos previos pueden tardar varias horas en ejecutarse».

En el futuro, el equipo planea adaptar Clio para que pueda manejar tareas de nivel superior y exprimir los avances recientes en representaciones de escenas visuales fotorrealistas.

“Todavía le damos a Clio tareas que son poco específicas, como ‘inquirir una baraja de cartas’”, dice Maggio. “Para la búsqueda y el rescate, es necesario asignarle tareas de más stop nivel, como ‘encontrar supervivientes’ o ‘retornar a conectar la electricidad’. Por eso queremos aparecer a una comprensión a nivel más humano de cómo realizar tareas más complejas”.

Esta investigación fue apoyada, en parte, por la Fundación Doméstico de Ciencias de EE. UU., la Fundación Doméstico de Ciencias de Suiza, el Laboratorio Lincoln del MIT, la Oficina de Investigación Naval de EE. UU. y la Alianza de Investigación Colaborativa de Tecnología y Sistemas Inteligentes Distribuidos y Colaborativos del Laboratorio de Investigación del Ejército de EE. UU.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *