La serie YOLO (You Only Look Merienda) ha hecho posible la identificación de objetos en tiempo verdadero. La interpretación más nuevo, YOLOv11, progreso el rendimiento y la eficiencia. Este artículo proporciona descomposición en profundidad de los principales avances de YOLOv11, paralelismos con modelos YOLO anteriores y usos prácticos. Al comprender sus desarrollos, podemos observar por qué se paciencia que YOLOv11 se convierta en una utensilio secreto en la detección de objetos en tiempo verdadero.

Objetivos de enseñanza
- Comprender los principios básicos y la proceso del cálculo de detección de objetos YOLO.
- Identifique las características e innovaciones secreto introducidas en YOLOv11.
- Compare el rendimiento y la edificio de YOLOv11 con versiones anteriores de YOLO.
- Explore las aplicaciones prácticas de YOLOv11 en varios escenarios del mundo verdadero.
- Aprenda a implementar y entrenar un maniquí YOLOv11 para tareas personalizadas de detección de objetos.
Este artículo fue publicado como parte del Blogatón de ciencia de datos.
¿Qué es YOLO?
es un sistema de detección de objetos en tiempo verdadero y igualmente puede denominarse grupo de algoritmos de detección de objetos. A diferencia de los métodos tradicionales, que activarían múltiples pasadas sobre una imagen, YOLO puede detectar instantáneamente objetos y sus ubicaciones en una sola pasada, lo que resulta en poco valioso para tareas que deben realizarse a reincorporación velocidad sin comprometer la precisión. Joseph Redmon presentó YOLO en 2016 y cambió el campo de detección de objetos al procesar imágenes completas, no por regiones, lo que hace que las detecciones sean mucho más rápidas y, al mismo tiempo, mantiene una precisión curioso.
Proceso de los modelos YOLO
YOLO ha evolucionado a través de múltiples iteraciones, cada una de las cuales progreso la interpretación antedicho. Aquí hay un síntesis rápido:
Traducción YOLO | Características secreto | Limitaciones |
---|---|---|
YOLOv1 (2016) | Primer maniquí de detección en tiempo verdadero | Lucha con objetos pequeños. |
YOLOv2 (2017) | Se agregaron cuadros de fondeo y normalización de lotes. | Todavía débil en la detección de objetos pequeños |
YOLOv3 (2018) | Detección multiescala | Maduro coste computacional |
YOLOv4 (2020) | Velocidad y precisión mejoradas | Compensaciones en casos extremos |
YOLOv5 | Implementación de PyTorch acomodaticio de usar | No es un emanación oficial |
YOLOv6/YOLOv7 | Inmueble mejorada | Mejoras incrementales |
YOLOv8/YOLOv9 | Mejor manejo de objetos densos | Complejidad creciente |
YOLOv10 (2024) | Transformadores introducidos, formación sin NMS | Escalabilidad limitada para dispositivos perimetrales |
YOLOv11 (2024) | Cabezal dinámico basado en transformador, entrenamiento sin NMS, módulos PSA | Escalabilidad desafiante para dispositivos periféricos en extremo restringidos |
Cada interpretación de YOLO ha traído mejoras en velocidad, precisión y capacidad para detectar objetos más pequeños, siendo YOLOv11 el más liberal hasta el momento.
Lea igualmente: YOLO: una alternativa definitiva para la detección y clasificación de objetos
Innovaciones secreto en YOLOv11
YOLOv11 introduce varias características innovadoras que lo distinguen de sus predecesores:
- Red troncal basada en transformador: A diferencia de las CNN tradicionales, YOLOv11 utiliza una red troncal basada en transformadores, que captura dependencias de extenso valor y progreso la detección de objetos pequeños.
- Diseño de inicio dinámica: Esto permite que YOLOv11 se adapte en función de la complejidad de la imagen, optimizando la asignación de posibles para un procesamiento más rápido y valioso.
- Capacitación sin NMS: YOLOv11 reemplaza la supresión no máxima (NMS) con un cálculo más valioso, lo que reduce el tiempo de inferencia y mantiene la precisión.
- Asignación de etiquetas dobles: Prosperidad la detección de objetos superpuestos y densamente empaquetados mediante el uso de un enfoque de asignación de etiquetas uno a uno y uno a muchos.
- Grandes convoluciones del kernel: Permite una mejor cuna de características con menos posibles computacionales, mejorando el rendimiento universal del maniquí.
- Autoatención parcial (PSA): Aplica selectivamente mecanismos de atención a ciertas partes del plano de características, mejorando el enseñanza de representación mundial sin aumentar los costos computacionales.
Lea igualmente: Una conductor destreza para la detección de objetos utilizando el popular situación YOLO – Parte III (con códigos Python)
Comparación de modelos YOLO
YOLOv11 supera a las versiones anteriores de YOLO en términos de velocidad y precisión, como se muestra en la sucesivo tabla:
Maniquí | Velocidad (FPS) | Precisión (plano) | Parámetros | Caso de uso |
---|---|---|---|---|
YOLOv3 | 30 FPS | 53,0% | 62M | Rendimiento controlado |
YOLOv4 | 40 FPS | 55,4% | 64M | Detección en tiempo verdadero |
YOLOv5 | 45 FPS | 56,8% | 44M | maniquí pronto |
YOLOv10 | 50 FPS | 58,2% | 48M | Implementación perimetral |
YOLOv11 | 60 FPS | 61,5% | 40M | Más rápido y más preciso |
Con menos parámetros, YOLOv11 logra mejorar la velocidad y la precisión, lo que lo hace ideal para una variedad de aplicaciones.

Lea igualmente: YOLOv7: detección de objetos en tiempo verdadero en su máxima expresión
Punto de narración de rendimiento
YOLOv11 demuestra mejoras significativas en varias métricas de rendimiento:
- Latencia: 25-40% menos latencia en comparación con YOLOv10, consumado para aplicaciones en tiempo verdadero.
- Precisión: progreso del 10 al 15 % en mAP con menos parámetros.
- Velocidad: Capaz de procesar 60 cuadros por segundo, lo que lo convierte en uno de los modelos de detección de objetos más rápidos.
Inmueble maniquí de YOLOv11
La edificio de YOLOv11 integra las siguientes innovaciones:
- Transformer Backbone: progreso la capacidad del maniquí para capturar el contexto mundial.
- Diseño dinámico del cabezal: Adapta el procesamiento a la complejidad de cada imagen.
- Módulo PSA: aumenta la representación mundial sin pegar mucho costo computacional.
- Asignación de etiquetas duales: progreso la detección de múltiples objetos superpuestos.
Esta edificio permite que YOLOv11 se ejecute de guisa valioso en sistemas de reincorporación tonalidad y dispositivos de vanguardia como teléfonos móviles.
Uso de muestra de YOLOv11
Paso 1: Instale las dependencias de YOLOv11
Primero, instale los paquetes necesarios:
!pip install ultralytics
!pip install torch torchvision
Paso 2: Cargue el maniquí YOLOv11
Puede cargar el maniquí previamente entrenado de YOLOv11 directamente utilizando la biblioteca Ultralytics.
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO('yolo11n.pt')
Paso 3: entrenar el maniquí en el conjunto de datos
Entrene el maniquí en su conjunto de datos con el número apropiado de épocas
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Probar el maniquí
Puede abstenerse el maniquí y probarlo en imágenes no vistas según sea necesario.
# Run inference on an image
results = model("path/to/your/image.png")
# Display results
results(0).show()
Imagen innovador y de salida
Tengo imágenes no vistas para revisar la predicción del maniquí y ha proporcionado el resultado más preciso.




Aplicaciones de YOLOv11
Los avances de YOLOv11 lo hacen adecuado para diversas aplicaciones del mundo verdadero:
- Vehículos autónomos: La detección mejorada de objetos pequeños y ocluidos progreso la seguridad y la navegación.
- Cuidado de la salubridad: La precisión de YOLOv11 ayuda en tareas de imágenes médicas como la detección de tumores, donde la precisión es fundamental.
- Mandato minorista y de inventario: Realiza un seguimiento del comportamiento del cliente, monitorea el inventario y progreso la seguridad en entornos minoristas.
- Vigilancia: Su velocidad y precisión lo hacen consumado para vigilancia y detección de amenazas en tiempo verdadero.
- Robótica: YOLOv11 permite a los robots navegar mejor en entornos e interactuar con objetos de forma autónoma.
Conclusión
YOLOv11 establece un nuevo típico para la detección de objetos, combinando velocidad, precisión y flexibilidad. Su edificio basada en transformador, diseño de cabezal dinámico y asignación de etiquetas duales le permiten sobresalir en una variedad de aplicaciones en tiempo verdadero, desde vehículos autónomos hasta atención médica. YOLOv11 está preparado para convertirse en una utensilio fundamental para desarrolladores e investigadores, allanando el camino para futuros avances en la tecnología de detección de objetos.
Si está buscando un curso de IA generativa en recta, explore: Software Pinnacle de GenAI.
Conclusiones secreto
- YOLOv11 presenta una columna vertebral basada en transformador y un diseño de cabezal dinámico, que progreso la detección de objetos en tiempo verdadero con maduro velocidad y precisión.
- Supera a los modelos YOLO anteriores al obtener 60 FPS y un mAP del 61,5% con menos parámetros, lo que lo hace más valioso.
- Innovaciones secreto como la capacitación sin NMS, la asignación de etiquetas duales y la autoatención parcial mejoran la precisión de la detección, especialmente para objetos superpuestos.
- Las aplicaciones prácticas de YOLOv11 abarcan vehículos autónomos, atención médica, comercio minorista, vigilancia y robótica, beneficiándose de su velocidad y precisión.
- YOLOv11 reduce la latencia entre un 25% y un 40% en comparación con YOLOv10, consolidando su posición como utensilio líder para tareas de detección de objetos en tiempo verdadero.
Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.
Pregunta frecuente
Respuesta. YOLO, o “Sólo miras una vez”, es un sistema de detección de objetos en tiempo verdadero que puede identificar objetos en una sola pasada sobre una imagen, lo que lo hace valioso y rápido. Fue introducido por Joseph Redmon en 2016 y revolucionó el campo de la detección de objetos al procesar imágenes en su conjunto en oficio de analizar regiones por separado.
Respuesta. YOLOv11 introduce varias innovaciones, incluida una columna vertebral basada en transformador, diseño de cabezal dinámico, entrenamiento sin NMS, asignación de etiquetas duales y autoatención parcial (PSA). Estas características mejoran la velocidad, la precisión y la eficiencia, lo que las hace adecuadas para aplicaciones en tiempo verdadero.
Respuesta. YOLOv11 supera a las versiones anteriores con una velocidad de procesamiento de 60 FPS y una precisión de mAP del 61,5%. Tiene menos parámetros (40M) en comparación con los 48M de YOLOv10, lo que ofrece una detección de objetos más rápida y precisa manteniendo la eficiencia.
Respuesta. YOLOv11 se puede utilizar en vehículos autónomos, atención médica (por ejemplo, imágenes médicas), encargo minorista y de inventario, vigilancia en tiempo verdadero y robótica. Su velocidad y precisión lo hacen ideal para escenarios que requieren una detección de objetos rápida y confiable.
Respuesta. El uso de una columna vertebral basada en transformador, un diseño de cabezal dinámico que se adapta a la complejidad de la imagen y el entrenamiento sin NMS ayudan a YOLOv11 a sujetar la latencia entre un 25 y un 40 % en comparación con YOLOv10. Estas mejoras le permiten procesar hasta 60 fotogramas por segundo, ideal para tareas en tiempo verdadero.