SSD训练自己的数据集（pytorch版）_ssd训练自己的数据集pytorch

2401_83946044

2506人浏览 · 2024-04-18 10:41:57

2401_83946044 · 2024-04-18 10:41:57 发布

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7

深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年最新Linux运维全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上运维知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

如果你需要这些资料，可以添加V获取：vip1024b （备注运维）

正文

数据集存放位置为ssd.pytorch-master/data目录下，也可以通过修改voc0712.py文件中的VOC_ROOT = osp.join(HOME, "data/VOCdevkit/")来指定数据集存放路径。数据集文件夹格式如下：

VOCdevkit
--VOC2020
----Annotations
----ImageSets
----JPEGImages

部分数据集存在xml文件中没有标记数据的情况，也就是没有<object>标签数据，会出现IndexError: too many indices for array:...的数组索引出错，需要使用下面的代码检测出错的xml文件，之后可以手动修改或删除出错的xml文件。

import argparse
import sys
import cv2
import os
import os.path as osp
import numpy as np

if sys.version_info[0] == 2:
    import xml.etree.cElementTree as ET
else:
    import xml.etree.ElementTree  as ET

parser = argparse.ArgumentParser(
            description='Single Shot MultiBox Detector Training With Pytorch')
train_set = parser.add_mutually_exclusive_group()
parser.add_argument('--root', default='VOCdevkit/VOC2020' , help='Dataset root directory path')
args = parser.parse_args()

CLASSES = [('person')]
annopath = osp.join('%s', 'Annotations', '%s.{}'.format("xml"))
imgpath  = osp.join('%s', 'JPEGImages',  '%s.{}'.format("jpg"))

def vocChecker(image_id, width, height, keep_difficult = False):
    target   = ET.parse(annopath % image_id).getroot()
    res      = []
    for obj in target.iter('object'):
        difficult = int(obj.find('difficult').text) == 1
        if not keep_difficult and difficult:
            continue
        name = obj.find('name').text.lower().strip()
        bbox = obj.find('bndbox')
        pts    = ['xmin', 'ymin', 'xmax', 'ymax']
        bndbox = []
        for i, pt in enumerate(pts):
            cur_pt = int(bbox.find(pt).text) - 1
            # scale height or width
            cur_pt = float(cur_pt) / width if i % 2 == 0 else float(cur_pt) / height
            bndbox.append(cur_pt)
        label_idx =  dict(zip(CLASSES, range(len(CLASSES))))[name]
        bndbox.append(label_idx)
        res += [bndbox]  # [xmin, ymin, xmax, ymax, label\_ind]
        # img\_id = target.find('filename').text[:-4]
    try :
        np.array(res)[:,4]
        np.array(res)[:,:4]
    except IndexError:
        print(image_id+" had error index")
    return res  # [[xmin, ymin, xmax, ymax, label\_ind], ... ]

if __name__ == '\_\_main\_\_' :
    i = 0
    for name in sorted(os.listdir(osp.join(args.root,'Annotations'))):
    # as we have only one annotations file per image
        i += 1
        img    = cv2.imread(imgpath  % (args.root,name.split('.')[0]))
        height, width, channels = img.shape
        res = vocChecker((args.root, name.split('.')[0]), height, width)
    print("Total of annotations : {}".format(i))

二、代码修改

修改data/voc0712.py文件中的VOC_CLASSES 变量。例如，将VOC_CLASSES修改为person类，注意如果只有一类则需要加方括号，修改后的结果如下。

VOC_CLASSES = [('person')

修改voc0712.py文件中VOCDetection类的__init__函数，将image_sets修改为[('2020', 'train'), ('2020', 'val'),('2020','test')]，修改后的结果如下。

def \_\_init\_\_(self, root,
	image_sets=[('2020', 'train'), ('2020', 'val'),('2020','test')],
	transform=None, target_transform=VOCAnnotationTransform(),
	dataset_name='VOC0712'):

修改config.py文件中的voc字典变量。将其中的num_classes修改为2（背景类和person类），第一次调试时可以将max_iter调小至1000，修改后的结果如下。

voc = {
    'num\_classes': 2,
    'lr\_steps': (80000, 100000, 120000),
    'max\_iter': 1000,
    'feature\_maps': [38, 19, 10, 5, 3, 1],
    'min\_dim': 300,
    'steps': [8, 16, 32, 64, 100, 300],
    'min\_sizes': [30, 60, 111, 162, 213, 264],
    'max\_sizes': [60, 111, 162, 213, 264, 315],
    'aspect\_ratios': [[2], [2, 3], [2, 3], [2, 3], [2], [2]],
    'variance': [0.1, 0.2],
    'clip': True,
    'name': 'VOC',
}

把coco_labels.txt放在ssd.pytorch-master/data/coco/目录下，也可以通过修改coco.py文件中的COCO_ROOT = osp.join(HOME, 'data/coco/')来指定存放路径。
在Pytorch1.3以上版本运行时，会出现RuntimeError: Legacy autograd function with non-static forward method is deprecated错误，原因是当前版本要求forward过程是静态的，所以需要将原代码进行修改。
将layers/functions/detection.py文件替换为Single-Shot-Object-Detection-Updated-master中的detection.py文件。
修改ssd.py文件中SSD类的__init__函数和forward函数，修改后的结果如下。

if phase == 'test':
	self.softmax = nn.Softmax(dim=-1)
    self.detect = Detect(num_classes, 0, 200, 0.01, 0.45)
修改为:
if phase == 'test':
	self.softmax = nn.Softmax()
	self.detect = Detect()
	
if self.phase == "test":
	output = self.detect(
    	loc.view(loc.size(0), -1, 4),                   # loc preds
        self.softmax(conf.view(conf.size(0), -1,
        			 self.num_classes)),                # conf preds
        self.priors.type(type(x.data))                  # default boxes
    )
修改为：
if self.phase == "test":
	output = self.detect.apply(21, 0, 200, 0.01, 0.45,
   		loc.view(loc.size(0), -1, 4),                   # loc preds
        self.softmax(conf.view(-1,21)),                 # conf preds
		self.priors.type(type(x.data))                  # default boxes
	)

修改train.py中187至189行代码，原因是.data[0]写法适用于低版本Pytorch，否则会出现IndexError:invalid index of a 0-dim tensor...错误，修改后的结果如下。

loc_loss += loss_l.item()


### 最后的话

最近很多小伙伴找我要Linux学习资料，于是我翻箱倒柜，整理了一些优质资源，涵盖视频、电子书、PPT等共享给大家！

### 资料预览

给大家整理的视频资料：

![](https://img-blog.csdnimg.cn/img_convert/99d13be347c20ffbaabaf3320938512e.png)

给大家整理的电子书资料：

  

![](https://img-blog.csdnimg.cn/img_convert/b40ea68ac3b5a46c9cd8daf05fd896e9.png)



**如果本文对你有帮助，欢迎点赞、收藏、转发给朋友，让我有持续创作的动力！**


**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注运维）**
![img](https://img-blog.csdnimg.cn/img_convert/7f0e94f9415d4aad435b79f1ef28f45e.jpeg)

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**
到真正的技术提升。**

**需要这份系统化的资料的朋友，可以添加V获取：vip1024b （备注运维）**
[外链图片转存中...(img-8ZdfUUCE-1713408106385)]

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

MiniMax M3 新手快速上手指南

在开发智能应用时，很多开发者往往卡在“如何快速让代码跑通”这一步。面对复杂的文档和繁多的配置项，容易陷入细节而忽略了核心逻辑的验证。其实，接入一个大语言模型并没有想象中那么困难，关键在于理清从密钥获取到首次成功调用的最小路径。一旦打通了这个闭环，后续的上下文管理、流式输出等高级功能自然就能顺势展开。对于正在构建客服机器人、智能助手或数据分析工具的技术人员来说，掌握标准的 API 调用流程是必备技能

DAMO开发者矩阵

钱学森1954年就指出了今天AI的根本问题

DAMO开发者矩阵

多智能体架构与模型上下文协议（MCP）全景规划方案

在“工业大模型 × 数字孪生 × 具身智能”深度交织的认知型智能制造系统（SoI）架构下，多智能体架构（Multi-Agent Architecture）与模型上下文协议（Model Context Protocol, MCP）的缝合，已成为硬科技离散制造与高端装备全生命周期服务（AI-PSS）中，打通工业异构多模态数据、消灭大模型长尾幻觉并保障工业级确定性安全反控的最新标准。