《第四十七篇》YOLOv3-SPP 深度解析:引入 SPP 结构,显著提升目标检测性能!
YOLOv3-SPP 技术详解
一、前言
YOLOv3-SPP 是在 YOLOv3 基础上加入 SPP(Spatial Pyramid Pooling)模块的一种改进版本,旨在提升模型对不同尺度目标的识别能力,尤其是在大目标检测方面表现更优。
它由 Alexey Bochkovskiy 在其维护的 Darknet 实现中提出,并被广泛应用于工业界和竞赛项目中。
二、YOLOv3-SPP 的完整模型结构流程图(输入图像:416×416×3)
Input Image (416x416x3)
│
├— Stem Layer → Conv + BN + LeakyReLU
├— Backbone: CSPDarknet53 / Darknet-53(含 SPP)
│ ├— Residual Block × N
│ └— Spatial Pyramid Pooling(SPP 模块)
│
├— Neck: 特征融合(FPN-like 结构)
│ ├— 上采样 + Concatenate(P5 → P4)
│ └— 上采样 + Concatenate(P4 → P3)
│
└— Detection Head:
├— P3 输出(小目标) → 80×80
├— P4 输出(中目标) → 40×40
└— P5 输出(大目标) → 20×20
三、YOLOv3-SPP 的核心改进点详解
1. 引入 SPP 模块(Spatial Pyramid Pooling)
📌 来源依据:
核心思想:
YOLOv3-SPP 在主干网络的最后阶段加入了 SPP 模块,其作用是:
- 扩展感受野;
- 提升对大目标的识别能力;
- 不增加下采样层级,保留高分辨率特征;
SPP 模型结构:
Input Feature Map → MaxPooling with multiple kernel sizes (5×5, 9×9, 13×13)
↓
Concatenate all outputs
↓
Output fused features
✅ 注:该结构在
yolov3-spp.cfg
中定义如下:
[maxpool]
size=5
stride=1
pad=2
maxpool_upsample=1
2. 使用 CSPDarknet53 主干网络
虽然 YOLOv3 最初使用的是 Darknet-53,但在 YOLOv3-SPP 的某些变体中(如 MS COCO 数据集优化版本),引入了 CSPDarknet53 主干网络,以提升梯度传播效率。
CSPDarknet53 的特点:
- 将特征图分为两个分支处理;
- 减少冗余计算;
- 提升推理稳定性;
3. 多尺度预测输出(P3/P4/P5)
YOLOv3-SPP 继承自 YOLOv3 的多尺度输出机制:
输出层级 | 输出尺寸 | anchor boxes |
---|---|---|
P3(80×80) | [B, 80, 80, 255] |
[10,13], [16,30], [33,23] |
P4(40×40) | [B, 40, 40, 255] |
[30,61], [62,45], [59,119] |
P5(20×20) | [B, 20, 20, 255] |
[116,90], [156,198], [373,326] |
✅ 注:每个输出张量包含
(x_center, y_center, width, height, objectness, class_probs)
,共 85 维。
四、YOLOv3-SPP 的完整模型结构总结(输入图像:416×416×3)
Input Image → Conv → BN → LeakyReLU
↓
ResBlock × N → DownSample → ResBlock × N → DownSample → ResBlock × N
↓
SPP Module → MaxPool × 3(5×5, 9×9, 13×13)→ Concatenate
↓
Detection Heads(三个层级)
├— P3: 80×80 → 小目标检测
├— P4: 40×40 → 中目标检测
└— P5: 20×20 → 大目标检测
五、YOLOv3-SPP 的关键组件详解
1. SPP 模块配置(来自 .cfg
文件):
[shortcut]
from=-3
activation=leaky
[spp]
pool_sizes = 5,9,13
其中 pool_sizes
表示池化核大小为 5×5、9×9、13×13 的 max pooling 层。
2. Detection Head 输出层(解耦头设计)
YOLOv3-SPP 的 head 层使用标准的解耦头设计(继承自 YOLOv3):
[convolutional]
filters=255
size=1
stride=1
pad=1
activation=linear
[yolo]
mask = 0,1,2
anchors = 10,13, 16,30, 33,23, 30,61, 62,45, 59,119, 116,90, 156,198, 373,326
classes=80
num=9
jitter=.3
ignore_thresh=.7
truth_thresh=1
iou_loss=ciou
iou_normalizer=0.07
nms_kind=diounms
beta_nms=0.6
六、YOLOv3-SPP 的训练过程详解(Step-by-Step)
Step 1: 数据预处理
git clone https://github.com/AlexeyAB/darknet
cd darknet
make -j8
加载 COCO 或 VOC 数据集并进行 Mosaic 数据增强(可选):
./darknet detector train data/coco.data cfg/yolov3-spp.cfg darknet53.conv.74
Step 2: 图像编码器(Darknet-53 / CSPDarknet53)
features = backbone(image) # 输出 P3/P4/P5 三层特征图
- 主干网络提取多尺度特征;
- 支持多种 backbone(ResNet、DenseNet 变种);
- 默认使用 Darknet-53;
Step 3: SPP 模块增强
enhanced_features = spp_module(features)
- 使用多个 max-pooling 核进行特征融合;
- 保持 feature map 分辨率不变;
- 提升大目标识别能力;
Step 4: 解码器输出边界框
head_outputs = detection_head(enhanced_features)
- 输出三个层级的边界框信息;
- 每个 bounding box 包含:
tx, ty, tw, th
:坐标偏移;objectness
:是否包含物体;class probs
:类别概率分布;
Step 5: 损失函数计算(CIoU Loss)
YOLOv3-SPP 默认使用 CIoU Loss 进行边界框回归:
L t o t a l = λ l o c ⋅ L c i o u ( p r e d _ b b o x , g t _ b b o x ) + λ o b j ⋅ L b c e ( p r e d _ o b j , g t _ o b j ) + λ c l s ⋅ L b c e ( p r e d _ c l s , g t _ c l s ) \mathcal{L}_{total} = \lambda_{loc} \cdot \mathcal{L}_{ciou}(pred\_bbox, gt\_bbox) + \lambda_{obj} \cdot \mathcal{L}_{bce}(pred\_obj, gt\_obj) + \lambda_{cls} \cdot \mathcal{L}_{bce}(pred\_cls, gt\_cls) Ltotal=λloc⋅Lciou(pred_bbox,gt_bbox)+λobj⋅Lbce(pred_obj,gt_obj)+λcls⋅Lbce(pred_cls,gt_cls)
七、YOLOv3-SPP 的推理流程详解(Step-by-Step)
Step 1: 图像输入与预处理
./darknet detect cfg/yolov3-spp.cfg yolov3-spp.weights test.jpg
内部执行流程如下:
image = cv2.imread("test.jpg")
resized_image = cv2.resize(image, (416, 416)) / 255.0
input_tensor = np.expand_dims(resized_image, axis=0)
Step 2: 推理输出(PyTorch / Darknet)
output_tensor = model.predict(input_tensor) # 输出三个层级预测结果
输出示例(简化表示):
[
[80, 80, 255], # 小目标层 P3
[40, 40, 255], # 中目标层 P4
[20, 20, 255] # 大目标层 P5
]
其中 255 = 3 anchors × (4 + 1 + 80)
即:(x, y, w, h)
+ objectness
+ class probs
Step 3: 解码 bounding box(Anchor-Based)
YOLOv3-SPP 使用 anchor-based 模式,每层有 3 个 anchor:
def decode_box(output_tensor, anchors):
bboxes = []
for i in range(H):
for j in range(W):
for k in range(num_anchors_per_pixel):
tx, ty, tw, th = output_tensor[i, j, k*85:(k+1)*85][:4]
conf = output_tensor[i, j, k*85+4]
class_probs = output_tensor[i, j, k*85+5:k*85+85]
# Anchor-based 解码
bx = (tx.sigmoid() + j) * stride_x
by = (ty.sigmoid() + i) * stride_y
bw = anchors[k][0] * exp(tw) * scale_w
bh = anchors[k][1] * exp(th) * scale_h
x1 = bx - bw / 2
y1 = by - bh / 2
x2 = bx + bw / 2
y2 = by + bh / 2
score = conf * class_probs.max()
bboxes.append([x1, y1, x2, y2])
scores.append(score)
return bboxes, scores
Step 4: DIoU-NMS 后处理
YOLOv3-SPP 支持多种 NMS 方式,默认使用 DIoU-NMS:
import torch
from torchvision.ops import nms
keep_indices = nms(bboxes, scores, iou_threshold=0.45)
final_bboxes = bboxes[keep_indices]
final_scores = scores[keep_indices]
final_labels = labels[keep_indices]
八、YOLOv3-SPP 的完整改进点汇总表
改进点 | 内容 | 是否首次提出 | 是否开源实现 |
---|---|---|---|
SPP 模块 | 多尺度池化提升大目标识别 | 否(继承自 SPPNet) | 是 |
多尺度输出 | P3/P4/P5 输出 | 是(YOLOv3) | 是 |
Anchor Boxes 设计 | K-Means 聚类 COCO 得到 | 是 | 是 |
CIoU Loss | 提升定位精度 | 否(后续社区引入) | 社区实现中启用 |
DIoU-NMS | 推理后处理 | 否(非官方提出) | 社区实现中启用 |
自动锚框聚类 | auto-anchor 工具脚本 | 否(社区工具) | 社区提供 |
支持 ONNX 导出 | 可转换为 ONNX / TensorRT | 否(需手动导出) | 社区已有尝试 |
九、YOLOv3-SPP 的完整模型变体对比
模型版本 | mAP@COCO val | FPS(V100) | 参数数量 |
---|---|---|---|
YOLOv3 | ~33.0% | ~45 | ~61M |
YOLOv3-SPP | ~36.5% | ~30 | ~61M |
YOLOv3-tiny | ~22.8% | ~110 | ~8.5M |
YOLOv3-WiderFace | ~34.2% | ~35 | ~61M |
YOLOv3-CSP | ~34.8% | ~40 | ~61M |
✅ 注:以上数据来自 AlexeyAB/darknet GitHub 和 Ultralytics/YOLOv3 benchmark 测试。
十、YOLOv3-SPP 的完整损失函数设计
YOLOv3-SPP 的损失函数包括:
损失类型 | 是否默认启用 | 是否可配置 |
---|---|---|
MSE Loss | 是(原始 YOLOv3) | 可切换为 CIoU Loss |
BCEWithLogitsLoss(分类) | 是 | 可调整类别权重 |
BCE Loss(objectness) | 是 | 可配置权重 |
十一、YOLOv3-SPP 的完整训练 & 推理流程总结
🧪 训练流程:
DataLoader → Mosaic/CopyPaste → Darknet-53 / CSPDarknet53 → SPP 模块 → Detect Head → Loss Calculation (CIoU + BCE) → Backpropagation
🧪 推理流程:
Image → Preprocess → Darknet-53 / CSPDarknet53 → SPP → Detect Head → NMS 后处理 → Final Detections
十二、YOLOv3-SPP 的局限性
局限性 | 说明 |
---|---|
没有正式发表论文 | 仅作为 YOLOv3 的改进版本存在 |
不支持 ATSS | 仍依赖 IoU 最大匹配策略 |
anchor 设置固定 | 新任务仍需重新聚类适配 |
缺乏注意力机制 | 相比 YOLOv5/v8 略显简单 |
十三、结语
YOLOv3-SPP 是目前最稳定、部署最广泛的 YOLO 改进版本之一,它的核心改进包括:
- 引入 SPP 模块,提升大目标识别能力;
- 保留 YOLOv3 的多尺度输出;
- 支持 auto-anchor 聚类;
- 提供完整的部署支持(ONNX / TensorRT);
📌 欢迎点赞 + 收藏 + 关注我,我会持续更新更多关于目标检测、YOLO系列、深度学习等内容!

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)