Velocidad y precisión de puente en la detección de objetos

¡Bienvenidos lectores, la clase CV está de reverso en sesión! Anteriormente hemos estudiado más de 30 diferentes Modelos de visión por computadora Hasta ahora en mi blog inicial, cada una con sus propias fortalezas únicas a la mesa desde las rápidas habilidades de detección de Yolo hasta el poder transformador de Transformadores de visión (VITS). Hoy estamos presentando un nuevo estudiante a nuestro salón de clases: RF-Detr. Siga leyendo para conocer todo sobre RF-Detr de RoboFlow y cómo está cerrando la velocidad y la precisión en la detección de objetos.

¿Cuál es el RF-Detr de RoboFlow?

RF-DETR es un transformador en tiempo positivo basado en detección de objetos Maniquí que logra más de 60 mapas en el conjunto de datos de Coco, mostrando un logro impresionante. Lógicamente, tenemos curiosidad: ¿RF-Detr podrá igualar la velocidad de Yolo? ¿Puede adaptarse a diversas tareas que encontramos en el mundo positivo?

Eso es lo que estamos aquí para explorar. En este artículo, desglosaremos las características centrales de RF-Detr, sus capacidades en tiempo positivo, una esforzado adaptabilidad de dominio y disponibilidad de código extenso y veremos cómo funciona adyacente con otros modelos. ¡Veamos y veamos si este recién llegado tiene lo que se necesita para sobresalir en aplicaciones del mundo positivo!

¿Por qué RF-Detr es un cambio de equipo?

Rendimiento sobresaliente tanto en los puntos de remisión de Coco y RF100-VL.
Diseñado para manejar dominios novedosos y entornos de incorporación velocidad, lo que lo hace consumado para aplicaciones de borde y descenso latencia.
Top 2 en todas las categorías en comparación con los modelos de transformadores Coco Sota en tiempo positivo (como D-Fine y LW-Detr) y los modelos SOTA YOLO CNN (como Yolov11 y Yolov8).

Rendimiento del maniquí y nuevos puntos de remisión

Los modelos de detección de objetos se desafían cada vez más a demostrar su valencia más allá de Coco, un conjunto de datos que, aunque históricamente crítico, no se ha actualizado desde que 2017. Como resultado, muchos modelos muestran solo mejoras marginales en Coco y recurren a otros conjuntos de datos (por ejemplo, LVIS, Objects365) para demostrar la extensión.

RF100-VL: El nuevo punto de remisión de RoboFlow que recopila rodeando de 100 conjuntos de datos diversos (imágenes aéreas, inspecciones industriales, etc.) de más de 500,000 en el universo RoboFlow. Este punto de remisión enfatiza adaptabilidad del dominioun multiplicador crítico para los casos de uso del mundo positivo en los que los datos pueden parecer drásticamente diferentes de los objetos comunes de Coco.

¿Por qué necesitamos RF100-VL?

Variedad del mundo positivo: RF100-VL incluye conjuntos de datos que cubren escenarios como imágenes de laboratorio, inspección industrial y fotografía aérea para probar qué tan aceptablemente funcionan los modelos fuera de los puntos de remisión tradicionales.
Diversos puntos de remisión: Al estandarizar el proceso de evaluación, RF100-VL permite comparaciones directas entre diferentes arquitecturas, incluidos los modelos basados en transformadores y las variantes YOLO basadas en CNN.
Adaptabilidad sobre ganancias incrementales: Con la saturación de coco, la adaptabilidad del dominio se convierte en una consideración de primer nivel adyacente con la latencia y la precisión cruda.

En la tabla inicial, podemos ver cómo RF-Detr se compara con otros modelos de detección de objetos en tiempo positivo:

PALMA DE COCO: La variación saco de RF-Detr logra el plano 53.3, colocándolo a la par con otros modelos en tiempo positivo.
RF100-VL: RF-DETR supera a otros modelos (86.7 MAP), que muestra su fantástico adaptabilidad de dominio.
Velocidad: A 6.0 ms/IMG en una GPU T4, RF-Detr coincide o supera a los modelos competitivos al tener en cuenta en el procesamiento posterior.

Nota: A partir de ahora, el código y el punto de control para RF-Detr-Large y RF-Detr-Almohadilla están disponibles.

La latencia total todavía es importante

Nms en yolo: Los modelos YOLO usan supresión no máxima (NMS) para refinar los cuadros delimitadores. Este paso puede detener levemente la inferencia, especialmente si hay muchos objetos en el entorno.

No hay un paso adicional en DETRS: RF-DETR sigue el enfoque de la tribu DETR, evitando la falta de un paso adicional de NMS para el refinamiento del cuadro delimitador.

Latencia contra precisión en Coco

Eje horizontal (latencia): Medido en milisegundos (MS) por imagen en una GPU NVIDIA T4 usando Tensorrt10 FP16. Latencia más descenso significa una inferencia más rápida aquí 🙂
Eje erecto (plano @0.50: 0.95): La precisión promedio media en el punto de remisión de Microsoft Coco, una medida unificado de precisión de detección. El plano más stop indica un mejor rendimiento.

En este cuadro, RF-Detr demuestra una precisión competitiva con modelos de yolo mientras mantiene la latencia en el mismo rango. RF-DETR supera el borde del plano de 60 que lo convierte en el Primero documentado Maniquí en tiempo positivo para obtener este nivel de rendimiento en Coco.

Adaptabilidad del dominio en RF100-VL

Aquí, Retratón Se destaca al obtener el plano más stop en RF100-VL, lo que indica una esforzado adaptabilidad en los dominios variados. Esto sugiere que RF-DETR no solo es competitivo en el Coco, sino que todavía se destaca en el manejo de conjuntos de datos del mundo positivo donde los objetos y condiciones específicos del dominio pueden retardar significativamente de los objetos comunes en Coco.

Clasificación potencial de retratación de RF

Según las métricas de rendimiento de la tabla de clasificación de RoboFlow, RF-Detr demuestra resultados competitivos en precisión y eficiencia.

RF-Detr-Large (128m Params) quería rango primerosuperando a todos los modelos existentes con un plano estimado 50:95 hacia lo alto 60.5convirtiéndolo en el maniquí más preciso en la clasificación.
RF-DETR-BASE (29M Params) quería Clasificar rodeando del 4to empleocompitiendo de cerca con modelos como Deim-d-Fine-X (61.7m params, 0.548 plano 50:95) y D-Fine-X (61.6M Params, 0.541 Plano 50:95). A pesar de su beocio recuento de parámetros, mantiene una esforzado superioridad de precisión.

Esta clasificación destaca aún más la eficiencia de RF-DETR, ofreciendo un stop rendimiento con una latencia optimizada al tiempo que mantiene un tamaño de maniquí más pequeño en comparación con algunos competidores.

Descripción caudillo de la edificación de RF-Detr

Históricamente, Modelos YOLO basados en CNN han liderado el paquete en la detección de objetos en tiempo positivo. Sin secuestro, los CNN por sí solos no siempre se benefician del pretrabenamiento a gran escalera, que es cada vez más fundamental en el enseñanza mecánico.

Transformadores Excelente con pretraben a gran escalera, pero a menudo ha sido demasiado voluminoso (pesado) o moroso para aplicaciones en tiempo positivo. El trabajo flamante, sin secuestro, muestra que los modelos basados en DEPR pueden coincidir con la velocidad de Yolo cuando consideramos que requiere el sobreprocesamiento de Yolo.

Delantera híbrida de RF-Detr

Columna de dinov2 pre-entrenada: Esto ayuda al maniquí a transferir el conocimiento del pre-entrenamiento de la imagen a gran escalera, aumentando el rendimiento en dominios novedosos o variados. Combinando el DETR LW con una red troncal de Dinov2 previamente capacitada, RF-DETR ofrece una adaptabilidad de dominio fantástico y beneficios significativos del pre-entrenamiento.
Extirpación de características de una sola escalera: Si aceptablemente el DETR deformable aprovecha la atención a múltiples escalera, el retrato de RF simplifica la extirpación de características a una sola escalera, lo que pone en nivelación entre la velocidad y el rendimiento.
Capacitación de resolución múltiple: RF-DETR puede ser entrenado en múltiples resoluciones, lo que le permite nominar la mejor compensación entre la velocidad y la precisión a la inferencia sin retornar a capacitar el maniquí.

Lea esto para obtener más información, lea esto Documento de investigación.

¿Cómo usar RF-Detr?

Tarea 1: Usarlo para la detección de objetos en una imagen

Instale RF-Detr a través de:

!pip install rfdetr

Luego puede cargar un punto de control previamente capacitado (entrenado en Coco) para uso inmediato en su aplicación:

import io

import requests

import supervision as sv

from PIL import Image

from rfdetr import RFDETRBase

model = RFDETRBase()

url = "https://media.roboflow.com/notebooks/examples/dog-2.jpeg"

image = Image.open(io.BytesIO(requests.get(url).content))

detections = model.predict(image, threshold=0.5)

annotated_image = image.copy()

annotated_image = sv.BoxAnnotator().annotate(annotated_image, detections)

annotated_image = sv.LabelAnnotator().annotate(annotated_image, detections)

sv.plot_image(annotated_image)

Tarea 2: usarlo para la detección de objetos en un video

Le proporcionaré mi enlace de repositorio de GitHub para que implementará autónomamente el maniquí mismo 🙂. Simplemente siga las instrucciones ReadMe.md para ejecutar el código.

Enlace de Github.

Código:

import cv2

import numpy as np

import json

from rfdetr import RFDETRBase

# Load the model

model = RFDETRBase()

# Read the classes.json file and store class names in a dictionary

with open('classes.json', 'r', encoding='utf-8') as file:

    class_names = json.load(file)

# Open the video file

cap = cv2.VideoCapture('walking.mp4')  # https://www.pexels.com/video/video-of-people-walking-855564/

# Create the output video

fourcc = cv2.VideoWriter_fourcc(*'XVID')

out = cv2.VideoWriter('output.mp4', fourcc, 20.0, (960, 540))

# For live video streaming:

# cap = cv2.VideoCapture(0)  # 0 refers to the default camera

while True:

    # Read a frame

    ret, frame = cap.read()

    if not ret:

        break  # Exit the loop when the video ends

    # Perform object detection

    detections = model.predict(frame, threshold=0.5)

    # Mark the detected objects

    for i, box in enumerate(detections.xyxy):

        x1, y1, x2, y2 = map(int, box)

        class_id = int(detections.class_id(i))

        # Get the class name using class_id

        label = class_names.get(str(class_id), "Unknown")

        confidence = detections.confidence(i)

        # Draw the bounding box (colored and thick)

        color = (255, 255, 255)  # White color

        thickness = 7  # Thickness

        cv2.rectangle(frame, (x1, y1), (x2, y2), color, thickness)

        # Display the label and confidence score (in white color and readable font)

        text = f"{label} ({confidence:.2f})"

        font = cv2.FONT_HERSHEY_SIMPLEX

        font_scale = 2

        font_thickness = 7

        text_size = cv2.getTextSize(text, font, font_scale, font_thickness)(0)

        text_x = x1

        text_y = y1 - 10

        cv2.putText(frame, text, (text_x, text_y), font, font_scale, (0, 0, 255), font_thickness, cv2.LINE_AA)

    # Display the results

    resized_frame = cv2.resize(frame, (960, 540))

    cv2.imshow('Labeled Video', resized_frame)

    # Save the output

    out.write(resized_frame)

    # Exit when 'q' key is pressed

    if cv2.waitKey(1) & 0xFF == ord('q'):

        break

# Release resources

cap.release()

out.release()  # Release the output video

cv2.destroyAllWindows()

Producción:

Ajuste fino para conjuntos de datos personalizados

El ajuste fino es donde RF-Detr efectivamente brilla, especialmente si está trabajando con hornacina o conjuntos de datos más pequeños:

Use formato de coco: Organice su conjunto de datos en trenes/, válidos/y pruebas/directorios, cada uno con sus propios _annotations.coco.json.
Aproveche el colab: El equipo de RoboFlow proporciona un detallado Cuaderno de colab (proporcionado por el equipo de RoboFlow) para guiarlo a través de la capacitación en su propio conjunto de datos.

from rfdetr import RFDETRBase

model = RFDETRBase()

model.train(

    dataset_dir="",

    epochs=10,

    batch_size=4,

    grad_accum_steps=4,

    lr=1e-4

)

Durante el entrenamiento, RF-Detr producirá:

Mancuerna regulares: Puntos de control de maniquí unificado.
Pesos de EMA: Una traducción de promedio móvil exponencial del maniquí, a menudo produciendo un rendimiento más estable.

¿Cómo capacitar a RF-Detr en un conjunto de datos personalizado?

Como ejemplo, el equipo de RoboFlow ha utilizado un conjunto de datos de gratitud de mosaicos Mahjong, una parte del punto de remisión RF100-VL que contiene más de 2,000 imágenes. Esta supervisión demuestra cómo descargar el conjunto de datos, instalar las herramientas necesarias y ajustar el maniquí en sus datos personalizados.

Consulte esto blog conocer más.

La pantalla resultante debe mostrar la verdad del suelo en un costado y las detecciones del maniquí en el otro. En nuestro ejemplo, RF-DETR identifica correctamente la mayoría de los mosaicos de Mahjong, con solo escasez de escasez menores que pueden mejorarse con un veterano entrenamiento.

Nota importante:

Segmentación de instancia: RF-DETR actualmente no admite la segmentación de instancias, como lo señaló el líder de código extenso de RoboFlow, Piotr skalski.
Pose Estimación: El soporte de estimación de pose todavía está en el horizonte y llegará pronto.

Veredicto final y borde potencial sobre otros modelos CV

RF-DETR es uno de los mejores modelos basados en TEDR en tiempo positivo, que ofrece un esforzado nivelación entre precisión, velocidad y adaptabilidad de dominio. Si necesita un detector basado en transformadores en tiempo positivo que evite la sobrecarga posterior al procesamiento y se generalice más allá de Coco, este es un contendiente principal. Sin secuestro, Yolov8 todavía tiene una superioridad en velocidad bruta para algunas aplicaciones.

Donde RF-Detr podría exceder a otros modelos CV:

Dominios especializados y conjuntos de datos personalizados: RF-Detr se destaca en la habilitación del dominio (86.7 Plano en RF100-VL), haciéndolo ideal para Imágenes médicas, detección de defectos industriales y navegación autónoma donde los modelos entrenados en coco luchan.
Aplicaciones de descenso latencia: Ya que no requiere nmspuede ser más rápido que yolo En escenarios donde el postprocesamiento agrega sobrecarga, como Detección basada en drones, disección de video o robótica.

A prueba de futuro basado en transformadores: A diferencia de los detectores basados en CNN (YOLO, R-CNN más rápido), los beneficios de RF de RF de Autoatación y pretrenesa a gran escalera (columna vertebral de Dinov2)haciéndolo más adecuado para razonamiento múltiple, manejo de obliteración y extensión a entornos invisibles.
Edge Ai y dispositivos incrustados: RF-Detr’s Tiempo de inferencia de 6.0 ms/IMG en una GPU T4 sugiere que podría ser un candidato esforzado para despliegue de borde en tiempo positivo Donde los modelos de DETR tradicionales son demasiado lentos.

Una ronda de aplausos al equipo de RoboFlow ML: Peter Robicheaux, James Gallagher, Joseph Nelson, Isaac Robinson.

Peter Robicheaux, James Gallagher, Joseph Nelson, Isaac Robinson. (20 de marzo de 2025). RF-Detr: un maniquí de detección de objetos en tiempo positivo SOTA. Blog RoboFlow: https://blog.roboflow.com/rf-detr/

Conclusión

RF-Detr de RoboFlow representa una nueva engendramiento de detección de objetos en tiempo positivo, equilibrando la incorporación precisión, la adaptabilidad del dominio y la descenso latencia en un solo maniquí. Ya sea que esté construyendo un sistema de robótica de vanguardia o implementando en dispositivos de borde condicionado por fortuna, RF-Detr ofrece una alternativa versátil y a prueba de futuro.

¿Cuáles son tus pensamientos? Déjame conocer en la sección de comentarios.

Genai Intern @ Analytics Vidhya | Postrer año @ vit chennai
Apasionado por la IA y el enseñanza mecánico, estoy ansioso por sumergirme en roles como ingeniero de IA/ML o irrefutable de datos donde puedo tener un impacto positivo. Con una sagacidad específico para un enseñanza rápido y un sexo por el trabajo en equipo, estoy emocionado de traer soluciones innovadoras y avances de vanguardia a la mesa. Mi curiosidad me impulsa a explorar la IA en varios campos y tomar la iniciativa de profundizar en la ingeniería de datos, asegurando que me mantenga a la vanguardia y entregue proyectos impactantes.

Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.

Etiquetado detección, Objetos, precisión, puente, velocidad