YOLOv11: el próximo brinco en la detección de objetos en tiempo verdadero

La serie YOLO (You Only Look Merienda) ha hecho posible la identificación de objetos en tiempo verdadero. La interpretación más nuevo, YOLOv11, progreso el rendimiento y la eficiencia. Este artículo proporciona descomposición en profundidad de los principales avances de YOLOv11, paralelismos con modelos YOLO anteriores y usos prácticos. Al comprender sus desarrollos, podemos observar por qué se paciencia que YOLOv11 se convierta en una utensilio secreto en la detección de objetos en tiempo verdadero.

Objetivos de enseñanza

Comprender los principios básicos y la proceso del cálculo de detección de objetos YOLO.
Identifique las características e innovaciones secreto introducidas en YOLOv11.
Compare el rendimiento y la edificio de YOLOv11 con versiones anteriores de YOLO.
Explore las aplicaciones prácticas de YOLOv11 en varios escenarios del mundo verdadero.
Aprenda a implementar y entrenar un maniquí YOLOv11 para tareas personalizadas de detección de objetos.

Este artículo fue publicado como parte del Blogatón de ciencia de datos.

¿Qué es YOLO?

es un sistema de detección de objetos en tiempo verdadero y igualmente puede denominarse grupo de algoritmos de detección de objetos. A diferencia de los métodos tradicionales, que activarían múltiples pasadas sobre una imagen, YOLO puede detectar instantáneamente objetos y sus ubicaciones en una sola pasada, lo que resulta en poco valioso para tareas que deben realizarse a reincorporación velocidad sin comprometer la precisión. Joseph Redmon presentó YOLO en 2016 y cambió el campo de detección de objetos al procesar imágenes completas, no por regiones, lo que hace que las detecciones sean mucho más rápidas y, al mismo tiempo, mantiene una precisión curioso.

Proceso de los modelos YOLO

YOLO ha evolucionado a través de múltiples iteraciones, cada una de las cuales progreso la interpretación antedicho. Aquí hay un síntesis rápido:

Traducción YOLO	Características secreto	Limitaciones
YOLOv1 (2016)	Primer maniquí de detección en tiempo verdadero	Lucha con objetos pequeños.
YOLOv2 (2017)	Se agregaron cuadros de fondeo y normalización de lotes.	Todavía débil en la detección de objetos pequeños
YOLOv3 (2018)	Detección multiescala	Maduro coste computacional
YOLOv4 (2020)	Velocidad y precisión mejoradas	Compensaciones en casos extremos
YOLOv5	Implementación de PyTorch acomodaticio de usar	No es un emanación oficial
YOLOv6/YOLOv7	Inmueble mejorada	Mejoras incrementales
YOLOv8/YOLOv9	Mejor manejo de objetos densos	Complejidad creciente
YOLOv10 (2024)	Transformadores introducidos, formación sin NMS	Escalabilidad limitada para dispositivos perimetrales
YOLOv11 (2024)	Cabezal dinámico basado en transformador, entrenamiento sin NMS, módulos PSA	Escalabilidad desafiante para dispositivos periféricos en extremo restringidos

Cada interpretación de YOLO ha traído mejoras en velocidad, precisión y capacidad para detectar objetos más pequeños, siendo YOLOv11 el más liberal hasta el momento.

Lea igualmente: YOLO: una alternativa definitiva para la detección y clasificación de objetos

Innovaciones secreto en YOLOv11

YOLOv11 introduce varias características innovadoras que lo distinguen de sus predecesores:

Red troncal basada en transformador: A diferencia de las CNN tradicionales, YOLOv11 utiliza una red troncal basada en transformadores, que captura dependencias de extenso valor y progreso la detección de objetos pequeños.
Diseño de inicio dinámica: Esto permite que YOLOv11 se adapte en función de la complejidad de la imagen, optimizando la asignación de posibles para un procesamiento más rápido y valioso.
Capacitación sin NMS: YOLOv11 reemplaza la supresión no máxima (NMS) con un cálculo más valioso, lo que reduce el tiempo de inferencia y mantiene la precisión.
Asignación de etiquetas dobles: Prosperidad la detección de objetos superpuestos y densamente empaquetados mediante el uso de un enfoque de asignación de etiquetas uno a uno y uno a muchos.
Grandes convoluciones del kernel: Permite una mejor cuna de características con menos posibles computacionales, mejorando el rendimiento universal del maniquí.
Autoatención parcial (PSA): Aplica selectivamente mecanismos de atención a ciertas partes del plano de características, mejorando el enseñanza de representación mundial sin aumentar los costos computacionales.

Lea igualmente: Una conductor destreza para la detección de objetos utilizando el popular situación YOLO – Parte III (con códigos Python)

Comparación de modelos YOLO

YOLOv11 supera a las versiones anteriores de YOLO en términos de velocidad y precisión, como se muestra en la sucesivo tabla:

Maniquí	Velocidad (FPS)	Precisión (plano)	Parámetros	Caso de uso
YOLOv3	30 FPS	53,0%	62M	Rendimiento controlado
YOLOv4	40 FPS	55,4%	64M	Detección en tiempo verdadero
YOLOv5	45 FPS	56,8%	44M	maniquí pronto
YOLOv10	50 FPS	58,2%	48M	Implementación perimetral
YOLOv11	60 FPS	61,5%	40M	Más rápido y más preciso

Con menos parámetros, YOLOv11 logra mejorar la velocidad y la precisión, lo que lo hace ideal para una variedad de aplicaciones.

Lea igualmente: YOLOv7: detección de objetos en tiempo verdadero en su máxima expresión

Punto de narración de rendimiento

YOLOv11 demuestra mejoras significativas en varias métricas de rendimiento:

Latencia: 25-40% menos latencia en comparación con YOLOv10, consumado para aplicaciones en tiempo verdadero.
Precisión: progreso del 10 al 15 % en mAP con menos parámetros.
Velocidad: Capaz de procesar 60 cuadros por segundo, lo que lo convierte en uno de los modelos de detección de objetos más rápidos.

Inmueble maniquí de YOLOv11

La edificio de YOLOv11 integra las siguientes innovaciones:

Transformer Backbone: progreso la capacidad del maniquí para capturar el contexto mundial.
Diseño dinámico del cabezal: Adapta el procesamiento a la complejidad de cada imagen.
Módulo PSA: aumenta la representación mundial sin pegar mucho costo computacional.
Asignación de etiquetas duales: progreso la detección de múltiples objetos superpuestos.

Esta edificio permite que YOLOv11 se ejecute de guisa valioso en sistemas de reincorporación tonalidad y dispositivos de vanguardia como teléfonos móviles.

Uso de muestra de YOLOv11

Paso 1: Instale las dependencias de YOLOv11

Primero, instale los paquetes necesarios:

!pip install ultralytics
!pip install torch torchvision

Paso 2: Cargue el maniquí YOLOv11

Puede cargar el maniquí previamente entrenado de YOLOv11 directamente utilizando la biblioteca Ultralytics.

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n model
model = YOLO('yolo11n.pt')

Paso 3: entrenar el maniquí en el conjunto de datos

Entrene el maniquí en su conjunto de datos con el número apropiado de épocas

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Probar el maniquí

Puede abstenerse el maniquí y probarlo en imágenes no vistas según sea necesario.

# Run inference on an image
results = model("path/to/your/image.png")

# Display results
results(0).show()

Imagen innovador y de salida

Tengo imágenes no vistas para revisar la predicción del maniquí y ha proporcionado el resultado más preciso.

Aplicaciones de YOLOv11

Los avances de YOLOv11 lo hacen adecuado para diversas aplicaciones del mundo verdadero:

Vehículos autónomos: La detección mejorada de objetos pequeños y ocluidos progreso la seguridad y la navegación.
Cuidado de la salubridad: La precisión de YOLOv11 ayuda en tareas de imágenes médicas como la detección de tumores, donde la precisión es fundamental.
Mandato minorista y de inventario: Realiza un seguimiento del comportamiento del cliente, monitorea el inventario y progreso la seguridad en entornos minoristas.
Vigilancia: Su velocidad y precisión lo hacen consumado para vigilancia y detección de amenazas en tiempo verdadero.
Robótica: YOLOv11 permite a los robots navegar mejor en entornos e interactuar con objetos de forma autónoma.

Conclusión

YOLOv11 establece un nuevo típico para la detección de objetos, combinando velocidad, precisión y flexibilidad. Su edificio basada en transformador, diseño de cabezal dinámico y asignación de etiquetas duales le permiten sobresalir en una variedad de aplicaciones en tiempo verdadero, desde vehículos autónomos hasta atención médica. YOLOv11 está preparado para convertirse en una utensilio fundamental para desarrolladores e investigadores, allanando el camino para futuros avances en la tecnología de detección de objetos.

Si está buscando un curso de IA generativa en recta, explore: Software Pinnacle de GenAI.

Conclusiones secreto

YOLOv11 presenta una columna vertebral basada en transformador y un diseño de cabezal dinámico, que progreso la detección de objetos en tiempo verdadero con maduro velocidad y precisión.
Supera a los modelos YOLO anteriores al obtener 60 FPS y un mAP del 61,5% con menos parámetros, lo que lo hace más valioso.
Innovaciones secreto como la capacitación sin NMS, la asignación de etiquetas duales y la autoatención parcial mejoran la precisión de la detección, especialmente para objetos superpuestos.
Las aplicaciones prácticas de YOLOv11 abarcan vehículos autónomos, atención médica, comercio minorista, vigilancia y robótica, beneficiándose de su velocidad y precisión.
YOLOv11 reduce la latencia entre un 25% y un 40% en comparación con YOLOv10, consolidando su posición como utensilio líder para tareas de detección de objetos en tiempo verdadero.

Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.

Pregunta frecuente

P1. ¿Qué es YOLO?

Respuesta. YOLO, o “Sólo miras una vez”, es un sistema de detección de objetos en tiempo verdadero que puede identificar objetos en una sola pasada sobre una imagen, lo que lo hace valioso y rápido. Fue introducido por Joseph Redmon en 2016 y revolucionó el campo de la detección de objetos al procesar imágenes en su conjunto en oficio de analizar regiones por separado.

P2. ¿Cuáles son las características secreto de YOLOv11?

Respuesta. YOLOv11 introduce varias innovaciones, incluida una columna vertebral basada en transformador, diseño de cabezal dinámico, entrenamiento sin NMS, asignación de etiquetas duales y autoatención parcial (PSA). Estas características mejoran la velocidad, la precisión y la eficiencia, lo que las hace adecuadas para aplicaciones en tiempo verdadero.

P3. ¿Cómo se compara YOLOv11 con versiones anteriores?

Respuesta. YOLOv11 supera a las versiones anteriores con una velocidad de procesamiento de 60 FPS y una precisión de mAP del 61,5%. Tiene menos parámetros (40M) en comparación con los 48M de YOLOv10, lo que ofrece una detección de objetos más rápida y precisa manteniendo la eficiencia.

P4. ¿Cuáles son las aplicaciones prácticas de YOLOv11?

Respuesta. YOLOv11 se puede utilizar en vehículos autónomos, atención médica (por ejemplo, imágenes médicas), encargo minorista y de inventario, vigilancia en tiempo verdadero y robótica. Su velocidad y precisión lo hacen ideal para escenarios que requieren una detección de objetos rápida y confiable.

P5. ¿Qué avances en YOLOv11 lo hacen valioso para uso en tiempo verdadero?

Respuesta. El uso de una columna vertebral basada en transformador, un diseño de cabezal dinámico que se adapta a la complejidad de la imagen y el entrenamiento sin NMS ayudan a YOLOv11 a sujetar la latencia entre un 25 y un 40 % en comparación con YOLOv10. Estas mejoras le permiten procesar hasta 60 fotogramas por segundo, ideal para tareas en tiempo verdadero.

Soy Neha Dwivedi, una entusiasta de la ciencia de datos que trabaja en SymphonyTech y graduada de MIT World Peace University. Me apasiona el descomposición de datos y el enseñanza inconsciente. ¡Estoy emocionado de compartir ideas y formarse de esta comunidad!

Etiquetado detección, Objetos, próximo, real, salto, tiempo, YOLOv11