Athrun Data Intelligence


Meta AI ha introducido V-Jepa 2, un maniquí de mundo hendido escalable diseñado para educarse de video a escalera de Internet y permitir una comprensión visual robusta, predicción estatal futura y planificación de disparos cero. Sobre la almohadilla de la cimentación predictiva de incrustación conjunta (JEPA), V-JEPA 2 demuestra cómo el estudios auto-supervisado del video pasivo de Internet, combinado con datos mínimos de interacción de robots, puede producir una almohadilla modular para agentes físicos inteligentes.

Pretratenamiento auto-supervisado escalable de 1 millones de horas de video

V-JepA 2 está previamente en más de 1 millón de horas de video a escalera de Internet combinados con 1 millón de imágenes. Utilizando un objetivo de Denoising Visual Mask, el maniquí aprende a restaurar parches espacio -temporales enmascarados en un espacio de representación oculto. Este enfoque evita las ineficiencias de la predicción a nivel de píxel al enfocarse en la dinámica de escenas predecible al tiempo que no tiene en cuenta el ruido irrelevante.

Para medrar el preado de JEPA a este nivel, los meta investigadores introdujeron cuatro técnicas secreto:

  • Escalera de datos: Construyó un conjunto de datos de 22 m-muestra (VideOMIX22M) a partir de fuentes públicas como SSV2, cinética, HowTTO100M, YT-Temporal-1B e ImageNet.
  • Escalera del maniquí: Amplió la capacidad del codificador a más de 1b parámetros utilizando VIT-G.
  • Software de capacitación: Adoptó una organización de resolución progresiva y prisión previa a 252k iteraciones.
  • Aumento espacial-temporal: Entrenado en clips de resolución progresivamente más larga y superior, alcanzando 64 cuadros con una resolución de 384 × 384.

Estas opciones de diseño condujeron a una precisión promedio del 88.2% en seis tareas de relato, incluidas SSV2, Diving-48, Jester, Kinetics, Coin e Imagenet, superando las líneas de almohadilla anteriores.

Comprensión a través del estudios de representación enmascarada

V-JepA 2 exhibe fuertes capacidades de comprensión de movimiento. En el punto de relato de poco v2 de poco, logra una precisión del 77.3% Top-1, superan modelos como Internvideo y VideOMeEv2. Para la comprensión de la apariencia, sigue siendo competitivo con los modelos previos a la imagen de texto de imagen de última concepción como Dinov2 y Pecoreg.

Las representaciones del codificador se evaluaron utilizando sondas atentos, verificando que el estudios auto-supervisado solo puede producir características visuales transferibles y agnósticas de dominio aplicables en diversas tareas de clasificación.

Razonamiento temporal a través de la respuesta de las preguntas de video

Para evaluar el razonamiento temporal, el codificador V-JepA 2 está seguidor con una multimodal maniquí de idioma excelso y evaluado en múltiples tareas de pregunta y respuesta de video. A pesar de la equivocación de supervisión del idioma durante el gimnasia previo, el maniquí logra:

  • 84.0% en Percepttest
  • 76.9% en tempcompass
  • 44.5% en MVP
  • 36.7% en temporalbench
  • 40.3% en tomate

Estos resultados desafían la suposición de que la formación del idioma visual requiere una formación conjunta desde el principio, lo que demuestra que un codificador de video previo al estado previo puede alinearse post hoc con una cachas extensión.

V-JEPA 2-AC: Memorizar modelos mundiales latentes para la planificación robótica

Una innovación secreto en este propagación es V-JEPA 2-AC, una variación condicionada por argumento del codificador previo a la aparición. Oportuno usando solo 62 horas de video androide no etiquetado del conjunto de datos Droid, V-JEPA 2-AC aprende a predecir futuras incrustaciones de video condicionadas en acciones y poses de robots. La cimentación es un transformador de parámetros de 300 m con atención componente de bloques, entrenado utilizando un objetivo de forcedura y despliegue del adiestrado.

Esto permite la planificación de disparo cero a través del control predictivo del maniquí. El maniquí infiere secuencias de argumento minimizando la distancia entre los estados futuros imaginados y los objetivos visuales utilizando el método de entropía transversal (CEM). Logra un gran éxito en tareas como alcanzar, agarrar y designar y colocar en armas de androide invisibles en diferentes laboratorios, sin supervisión de galardón o colección de datos adicional.

Puntos de relato: rendimiento robusto y eficiencia de planificación

En comparación con las líneas de almohadilla como Octo (clonación de comportamiento) y cosmos (modelos mundiales de difusión oculto), V-JepA 2-AC:

  • Ejecuta planes en ~ 16 segundos por paso (contra 4 minutos para el cosmos).
  • Alcanza una tasa de éxito del 100% en las tareas de capacidad.
  • Supera a otros en tareas de agarre y manipulación en los tipos de objetos.

En particular, funciona con una cámara RGB monocular sin calibración o ajuste fino específico del entorno, reforzando la capacidad de extensión del maniquí mundial aprendido.

Conclusión

V-JepA 2 de Meta representa un avance significativo en el estudios auto-supervisado escalable para la inteligencia física. Al desacoplar la observación aprendiendo del acondicionamiento de la argumento y aprovechando el video pasivo a gran escalera, V-JepA 2 demuestra que las representaciones visuales de uso caudillo pueden aprovecharse tanto para la percepción como para el control en el mundo vivo.


Mira el Papel, Modelos en la cara abrazada y Página de Github. Todo el crédito por esta investigación va a los investigadores de este plan. Adicionalmente, siéntete disponible de seguirnos Gorjeo Y no olvides unirte a nuestro 99k+ ml de subreddit y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como patrón e ingeniero iluminado, ASIF se compromete a servirse el potencial de la inteligencia sintético para el aceptablemente social. Su esfuerzo más flamante es el propagación de una plataforma de medios de inteligencia sintético, MarktechPost, que se destaca por su cobertura profunda de telediario de estudios obligatorio y de estudios profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el divulgado.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *