Athrun Data Intelligence


La detección táctil es una modalidad crucial para que los sistemas inteligentes perciban e interactúen con el mundo físico. El sensor Gelsight y sus variantes han surgido como tecnologías táctiles influyentes, proporcionando información detallada sobre las superficies de contacto transformando datos táctiles en imágenes visuales. Sin requisa, la detección táctil basada en la visión carece de transferibilidad entre los sensores adecuado al diseño y las variaciones de fabricación, lo que resultó en diferencias significativas en las señales táctiles. Las diferencias menores en el diseño óptico o los procesos de fabricación pueden crear discrepancias sustanciales en la producción de sensores, causando enseñanza involuntario Los modelos entrenados en un sensor para funcionar mal cuando se aplican a otros.

Los modelos de visión por computadora se han chapón ampliamente a las imágenes táctiles basadas en la visión adecuado a su naturaleza inherentemente visual. Los investigadores han adaptado los métodos de enseñanza de representación de la comunidad de la visión, con un enseñanza contrastante popular para desarrollar representaciones táctiles y visuales-táctiles para tareas específicas. Incluso se exploran los enfoques de representación de codificación cibernética, con algunos investigadores que utilizan un codificador involuntario encubierto (MAE) para cultivarse representaciones táctiles. Los métodos como las representaciones multimodales de uso normal utilizan múltiples conjuntos de datos táctiles en marcos LLM, codificando tipos de sensores como tokens. A pesar de estos esfuerzos, los métodos actuales a menudo requieren grandes conjuntos de datos, tratar los tipos de sensores como categorías fijas y carecen de la flexibilidad para ampliar a los sensores invisibles.

Investigadores de la Universidad de Illinois Urbana-Champaign propusieron representaciones táctiles invariantes de sensores (SITR), una representación táctil para transferirse a través de varios sensores táctiles basados ​​en la visión de modo cero. Se fundamento en la premisa de que conquistar la transferibilidad del sensor requiere cultivarse representaciones efectivas invariantes del sensor a través de la exposición a diversas variaciones del sensor. Utiliza tres innovaciones básicas: utilizar imágenes de calibración fáciles de apoderarse para caracterizar sensores individuales con un codificador de transformadores, utilizar el enseñanza contrastante supervisado para acentuar los aspectos geométricos de los datos táctiles en múltiples sensores y desarrollar un conjunto de datos sintético a gran escalera que contiene 1M ejemplos en 100 sensores de configuraciones.

Los investigadores utilizaron la imagen táctil y un conjunto de imágenes de calibración para el sensor como entradas para la red. El fondo del sensor se resta de todas las imágenes de entrada para aislar los cambios de color en cuanto a píxeles. A posteriori del transformador de visión (VIT), estas imágenes se proyectan linealmente en tokens, con imágenes de calibración que requieren tokenización solo una vez por sensor. Por otra parte, dos señales de supervisión guían el proceso de entrenamiento: una pérdida de reconstrucción del atlas común de píxel para los tokens de parche de salida y una pérdida contrastante para el token de clase. Durante el pre-entrenamiento, un decodificador tenue reconstruye la superficie de contacto como un atlas común de la salida del codificador. Por otra parte, SITR emplea el enseñanza contrastante supervisado (SCL), que extiende los enfoques de contrastamiento tradicionales al utilizar la información de la rótulo para delimitar la similitud.

En las pruebas de clasificación de objetos utilizando el conjunto de datos del mundo efectivo de los investigadores, SITR supera a todos los modelos de relato cuando se transfieren a través de diferentes sensores. Si admisiblemente la mayoría de los modelos funcionan admisiblemente en la configuración de no transferencia, no pueden generalizarse cuando se prueban en sensores distintos. Muestra la capacidad de SITR para capturar características significativas e invariantes del sensor que siguen siendo robustas a pesar de los cambios en el dominio del sensor. En las tareas de estimación de pose, donde el objetivo es estimar los cambios de posición de 3-DOF utilizando imágenes táctiles iniciales y finales, SITR reduce el error cuadrado medio de la raíz en aproximadamente un 50% en comparación con las líneas de pulvínulo. A diferencia de los resultados de la clasificación, el pre-entrenamiento de Imagenet solo mejoramiento marginalmente el rendimiento de la estimación de pose, que muestra que las características aprendidas de las imágenes naturales pueden no transferirse de modo efectiva a los dominios táctiles para tareas de regresión precisas.

En este artículo, los investigadores introdujeron SITR, un ámbito de representación táctil que se transfiere a través de varios sensores táctiles basados ​​en la visión de modo cero. Construyeron conjuntos de datos alineados a gran escalera y alineados con sensores utilizando datos sintéticos y del mundo efectivo y desarrollaron un método para entrenar SITR para capturar características densas e invariantes del sensor. El SITR representa un paso en torno a un enfoque unificado para la detección táctil, donde los modelos pueden generalizarse a la perfección en diferentes tipos de sensores sin retornar a capacitar o ajustar. Este avance tiene el potencial de acelerar los avances en la manipulación robótica y la investigación táctil al eliminar una barrera secreto para la admisión e implementación de estas tecnologías de sensores prometedoras.


Probar el Papel y Código. Todo el crédito por esta investigación va a los investigadores de este plan. Por otra parte, siéntete atrevido de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.

🔥 (Regístrese ahora) Conferencia aparente de Minicon sobre código rajado AI: Registro tirado + Certificado de Público + Evento corto de 3 horas (12 de abril, 9 am- 12 pm PST) + Hands on Workshop (patrocinado)


Sajjad Ansari es un pregrado de final año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo efectivo. Su objetivo es articular conceptos complejos de IA de modo clara y accesible.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *