Medrar la anotación de datos utilizando modelos de visión y lengua para impulsar sistemas físicos de IA

La escasez crítica de mano de obra está limitando el crecimiento en los sectores de manufactura, provisión, construcción y agricultura. El problema es particularmente moribundo en la construcción: casi 500.000 puestos siguen sin cubrir en los Estados Unidos, con 40% de la fuerza profesional presente que se aproxima a la renta internamente de la plazo. Estas limitaciones de la fuerza profesional resultan en proyectos retrasados, costos crecientes y planes de mejora diferidos. Para afrontar estas limitaciones, las organizaciones están desarrollando sistemas autónomos que pueden realizar tareas que llenan brechas de capacidad, amplían las capacidades operativas y ofrecen el beneficio adicional de productividad las 24 horas.

La construcción de sistemas autónomos requiere grandes conjuntos de datos anotados para entrenar modelos de IA. Una formación eficaz determina si estos sistemas ofrecen valencia empresarial. El cuello de botella: el suspensión costo de la preparación de datos. Fundamentalmente, el acto de etiquetar datos de vídeo (identificar información sobre equipos, tareas y el entorno) es necesario para respaldar que los datos sean bártulos para el entrenamiento del maniquí. Este paso puede impedir la implementación del maniquí, lo que ralentiza la entrega de productos y servicios basados en IA a los clientes. Para las empresas de construcción que gestionan millones de horas de vídeo, la preparación y anotación manual de datos se vuelve poco destreza. Los modelos de visión y lengua (VLM) ayudan a afrontar esto interpretando imágenes y videos, respondiendo a consultas en lengua natural y generando descripciones a una velocidad y escalera que los procesos manuales no pueden igualar, lo que brinda una alternativa rentable.

En esta publicación, examinamos cómo Robótica de roca aborda este desafío. Al unirse al Asignación de IA física de AWS, la startup se asoció con el Centro de innovación de IA generativa de AWS aplicar modelos de lengua visual que analicen secuencias de video de construcción, extraigan detalles operativos y generen conjuntos de datos de capacitación etiquetados a escalera, para mejorar la preparación de datos para equipos de construcción autónomos.

Bedrock Robotics: un estudio de caso sobre la velocidad de la construcción autónoma

Desde 2024, Bedrock Robotics desarrolla sistemas autónomos para equipos de construcción. El producto de la empresa, Bedrock Cámara, es una alternativa de modernización que combina hardware con modelos de IA para permitir que las excavadoras y otras maquinarias funcionen con una mínima intervención humana. Estos sistemas pueden realizar tareas como excavación, nivelación y manipulación de materiales con precisión centimétrica. Entrenar estos modelos requiere volúmenes masivos de secuencias de video que capturen equipos, tareas y el entorno circundante, un proceso que consume muchos posibles y limita la escalabilidad.

Los VLM ofrecen una alternativa al analizar estos datos de imágenes y videos y difundir descripciones de texto. Esto los hace muy adecuados para tareas de anotación, lo cual es fundamental para enseñar a los modelos cómo asociar patrones visuales con el lengua humano. Bedrock Robotics utilizó esta tecnología para optimizar la preparación de datos para entrenar modelos de IA, permitiendo operaciones autónomas para los equipos. Encima, mediante una selección adecuada del maniquí y una ingeniería rápida, la empresa mejoró la identificación de herramientas del 34 % al 70 %. Esto transformó un proceso manual que requería mucho tiempo en una alternativa de canalización de datos automatizada y escalable. El avance aceleró el despliegue de equipos autónomos.

Este enfoque proporciona un ámbito replicable para organizaciones que enfrentan desafíos de datos similares y demuestra cómo la inversión estratégica en modelos básicos (FM) puede difundir resultados operativos mensurables y una superioridad competitiva. Los modelos básicos son modelos entrenados con cantidades masivas de datos utilizando técnicas de estudios autosupervisadas que aprenden representaciones generales que pueden adaptarse a muchas tareas posteriores. Los VLM aprovechan estas técnicas de preentrenamiento a gran escalera para unir modalidades visuales y textuales, permitiéndoles comprender, analizar y difundir contenido tanto en imágenes como en lengua.

En las siguientes secciones, analizamos el proceso que utilizó Bedrock Robotics para anotar millones de horas de secuencias de video y acelerar la innovación utilizando una alternativa basada en VLM.

De datos de vídeo no estructurados a un activo importante utilizando VLM

Habilitar equipos de construcción autónomos requiere extraer información útil de millones de horas de material eficaz no estructurado. Específicamente, Bedrock Robotics necesitaba identificar accesorios de herramientas, tareas y condiciones del ocupación de trabajo en diversos escenarios. Las siguientes imágenes son fotogramas de vídeo de ejemplo de este conjunto de datos.

Los equipos de construcción funcionan con múltiples accesorios de herramientas, cada uno de los cuales requiere una clasificación precisa para entrenar modelos de IA confiables. Trabajando con el Centro de Innovación, Bedrock Robotics centró sus esfuerzos de innovación abordando algunas categorías de herramientas críticas: ganchos de elevación para manejo de materiales, martillos para demolición de concreto, vigas niveladoras para nivelación de superficies y cucharones para zanjas para excavaciones estrechas.

Estas etiquetas permiten a Bedrock Robotics optar segmentos de video relevantes y ensamblar conjuntos de datos de entrenamiento que representan una variedad de configuraciones de equipos y condiciones operativas.

Acelerar la implementación de la IA mediante la optimización del maniquí importante

Los VLM disponibles en el mercado (VLM sin optimización rápida) tienen dificultades con los datos de vídeo de la construcción porque están entrenados en imágenes web, no en imágenes del cámara desde las cabinas de las excavadoras. No pueden manejar ángulos inusuales, imágenes específicas del equipo o mala visibilidad oportuno al polvo y el clima. Todavía carecen del conocimiento del dominio para distinguir herramientas visualmente similares, como cucharas para excavar y cucharas para zanjar.

Bedrock Robotics y el Centro de Innovación abordaron esto mediante la selección de modelos específicos y una optimización rápida. Los equipos evaluaron múltiples VLM, incluidas opciones de código extenso y FM disponibles en Roca Amazónica—luego, indicaciones refinadas con descripciones visuales detalladas de cada utensilio, orientación para pares de herramientas que comúnmente se confunden e instrucciones paso a paso para analizar cuadros de video.

Estas modificaciones mejoraron la precisión de la clasificación del 34 % al 70 % en un conjunto de prueba que comprendía 130 vídeos, a 10 dólares por hora de procesamiento de vídeo. Estos resultados demuestran cómo la ingeniería rápida adapta los VLM a tareas especializadas. Para Bedrock Robotics, esta personalización brindó ciclos de capacitación más rápidos, pequeño tiempo de implementación y un canal de anotaciones escalable y rentable que evoluciona con las deyección operativas.

El camino a seguir: afrontar la escasez de mano de obra mediante la automatización

La superioridad competitiva. Para Bedrock Robotics, los sistemas de visión y lengua permitieron una rápida identificación y cuna de conjuntos de datos críticos, proporcionando la información necesaria a partir de videos masivos de construcción. Con una precisión universal del 70 %, este enfoque rentable proporciona una saco destreza para ascender la preparación de datos para el entrenamiento de modelos. Demuestra cómo la innovación estratégica en IA puede mudar las limitaciones de la fuerza profesional y acelerar las transformaciones de la industria. Las organizaciones que agilizan la preparación de datos pueden acelerar la implementación de sistemas autónomos, ceñir los costos operativos y explorar nuevas áreas de crecimiento en industrias afectadas por la escasez de mano de obra. Con este ámbito repetible, los líderes de fabricación y automatización industrial que enfrentan desafíos similares pueden aplicar estos principios para impulsar la diferenciación competitiva internamente de sus propios dominios.

Para obtener más información, visite Robótica de roca o explore los posibles físicos de IA en AWS.