YOLO26论文

YOLO26 基础概况

Ultralytics YOLO26 是 YOLO 系列实时对象检测器的最新演进,从头开始专为边缘和低功耗设备而设计。它引入了简化的设计,消除了不必要的复杂性,同时集成了有针对性的创新,以实现更快、更轻、更易于访问的部署。

YOLO26 的架构遵循三个核心原则:

  • 简洁性: YOLO26 是一个原生端到端模型,直接生成预测,而无需非极大值抑制 (NMS)。通过消除此后处理步骤,推理变得更快、更轻,并且更易于在实际系统中部署。清华大学的 Ao Wang 在 YOLOv10 中首次开创了这种突破性方法,并在 YOLO26 中得到了进一步发展。
  • 部署效率: 端到端设计消除了管道的整个阶段,从而大大简化了集成,减少了延迟,并使部署在各种环境中更加稳健。
  • 训练创新: YOLO26 引入了 MuSGD 优化器,它是 SGD 和 Muon 的混合体 ——受 Moonshot AI 的 Kimi K2 在 LLM 训练方面的突破启发。该优化器带来了增强的稳定性和更快的收敛速度,从而将语言模型的优化进展转移到计算机视觉中。
    这些创新共同提供了一个模型系列,该模型系列在小对象上实现了更高的精度,提供了无缝部署,并且在 CPU 上的运行速度提高了 43% — 使 YOLO26 成为迄今为止资源受限环境中最实用和可部署的 YOLO 模型之一。
    在这里插入图片描述

一、YOLO发展背景

早期 YOLO 版本(2016-2022):

  • YOLOv1(2016):由 Joseph Redmon 提出,首次将目标检测定义为 “单阶段回归问题”,实现实时推理,但小目标检测能力弱。
  • YOLOv2(2017):引入批量归一化、锚框(Anchor Boxes)、多尺度训练,提升不同尺寸目标检测鲁棒性。
  • YOLOv3(2018):采用 Darknet-53 深层架构,结合多尺度特征图,成为后续数年学术与工业界 “默认标准”。
  • YOLOv4(2020):集成 CSPNet、Mish 激活函数、马赛克数据增强、CIoU 损失,进一步提升精度。
  • YOLOv5(2020):Ultralytics 推出(非官方版本),基于 PyTorch 实现,支持模块化设计,简化分割、边缘部署。
  • YOLOv6/7(2022):融入 Transformer 启发模块、参数高效优化,接近 SOTA 精度的同时保留实时性。

近期 YOLO 版本(2023-2025,YOLO26 前身):

  • YOLOv8(2023):解耦检测头、无锚框预测,支持 TensorRT/CoreML 导出,提供 nano/small 等多尺度变体,广泛应用于工业界。
  • YOLOv9(2023):引入 GELAN(通用高效层聚合网络)与渐进式蒸馏,平衡效率与表征能力。
  • YOLOv10(2024):通过混合任务对齐分配,优化精度与推理延迟的平衡。
  • YOLOv11(2024):提升 GPU 效率,同时保留小目标检测性能,巩固 Ultralytics “生产级模型” 定位。
  • YOLOv12/13(2025):采用注意力中心化设计、超图增强视觉感知,但仍依赖 NMS 和 DFL,导致边缘设备部署 latency 高、兼容性差,成为 YOLO26 的改进靶点。

二、YOLO26核心架构改进

1. 移除 DFL(Distribution Focal Loss,分布焦点损失)

背景:DFL 用于提升边界框回归精度(预测坐标概率分布),但存在计算开销大、导出困难问题,需针对 ONNX/TensorRT 等格式自定义处理。

改进效果

  • 简化边界框回归为 “直接回归任务”,无需概率分布计算;
  • 与 ProgLoss、STAL 结合,精度持平或超越 DFL-based 模型(如
    YOLOv12/13);
  • 提升跨平台兼容性,消除导出瓶颈,适配边缘硬件。

2. 端到端无 NMS(Non-Maximum Suppression)推理

背景:传统 YOLO(v8-v13)依赖 NMS 过滤重复预测框,需手动调优 IoU 阈值,增加后处理 latency 与部署脆弱性。
改进效果

  • 重新设计预测头,直接输出 “无冗余边界框”,无需后处理;
  • CPU 推理速度最高提升43%(nano 模型),latency 低于 YOLOv11/12;
  • 无需 NMS 代码,提升可重复性与部署便携性,为 YOLO 家族首次采用该范式。

3. 引入 ProgLoss 与 STAL(小目标优化双策略)

  • ProgLoss(渐进式损失平衡)
    核心功能:训练中动态调整不同损失分量权重
    解决问题:避免对优势类别过拟合,防止后期训练不稳定

  • STAL(小目标感知标签分配)
    核心功能:优先为小目标分配标签(小目标像素少、易遮挡,传统分配易被忽略)
    解决问题:提升 COCO、UAV 图像等数据集中小 / 遮挡目标精度

  • 对比优势:相较于 YOLOv8/11 的 “依赖数据增强”、YOLOv12/13 的 “注意力模块增复杂度”,ProgLoss+STAL 以轻量化方式实现精度提升,适配边缘设备。

4. 采用 MuSGD 优化器(训练效率提升)

设计逻辑:融合SGD(随机梯度下降) 的鲁棒性 / 泛化能力与Muon 优化器的自适应性,灵感来源于大语言模型训练(如 Moonshot AI 的 Kimi K2).

改进效果

  • 减少训练轮次:达到同等精度所需 epoch 更少,降低计算成本;
  • 提升收敛稳定性:避免 YOLOv8-v13 中 SGD/AdamW 的 “需大量超参调优”“收敛波动” 问题;
  • 简化开发流程:减少训练重启次数,性能预测更可控。

三、支持的任务和模式

YOLO26 被设计为一个多任务模型系列,将 YOLO 的多功能性扩展到各种计算机视觉挑战中:
在这里插入图片描述
这种统一的框架确保 YOLO26 适用于实时检测、分割、分类、姿势估计和定向对象检测,所有这些都支持训练、验证、推理和导出。

四、部署优势与行业应用

  1. 多格式无缝导出:支持 ONNX(跨平台)、TensorRT(GPU 加速)、CoreML(iOS)、TFLite(Android /
    边缘)、OpenVINO(Intel 硬件),无需自定义转换脚本;
  2. 资源约束适配:可部署于无独立 GPU 的设备(如 ARM CPU 智能相机、Qualcomm Snapdragon AI
    加速器),INT8 量化后模型大小缩减 75%;
  3. 低部署门槛:Ultralytics 提供 Python 包,统一训练、验证、导出流程,降低工程师技术成本。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐