深度学习模型的集成

目前，了解到的深度学习模型集成的方法主要有两种：第一：平均checkpoints即对存储好的多个checkpoint中的参数求平均，然后重新保存。这里的多个checkpoint可以是同一份数据训练，模型收敛后存储的多个模型；也可以是不同的数据训练得到的模型。该方法的优点是可以提高单个模型的效果，并且推理的速度和存储都不会发生变化。缺点在于待平均的模型的结构要完全一致，另外提升的效果不会很大。以py

旺旺棒棒冰

2648人浏览 · 2021-05-25 19:36:56

旺旺棒棒冰 · 2021-05-25 19:36:56 发布

目前，了解到的深度学习模型集成的方法主要有两种：

第一：平均checkpoints

即对存储好的多个checkpoint中的参数求平均，然后重新保存。这里的多个checkpoint可以是同一份数据训练，模型收敛后存储的多个模型；也可以是不同的数据训练得到的模型。

该方法的优点是可以提高单个模型的效果，并且推理的速度和存储都不会发生变化。缺点在于待平均的模型的结构要完全一致，另外提升的效果不会很大。以pytorch为例，代码如下：

import os
import torch

os.environ["CUDA_VISIBLE_DEVICES"] = "1"

dir_path = "/save_checkpoint_path/"
# 存储模型的路径
start_id = 40  # 待求平均的模型开始索引
end_id = 50  # 待求平均的模型结束索引

models = []
for i in range(start_id + 1, end_id):
    model_path = dir_path + "checkpoint_" + str(i) + ".pt"
    models.append(model_path)
#
checkpoint_path = os.path.join(dir_path, "checkpoint_" + str(start_id) + ".pt")
state = torch.load(checkpoint_path)

count = 0
for cpt in models:
    count += 1
    tmp_state = torch.load(cpt)
    for k in tmp_state:
        state[k] += tmp_state[k]
for k in state:
    state[k] = state[k] / (count + 1)

new_checkpoint_path = dir_path + "/checkpoint_average_point.pt"
torch.save(state, new_checkpoint_path)
# 存储平均之后的checkpoint
print(state)

第二：平均概率

基于深度学习的任务基本都是要在模型的最后一层求得概率或者未归一化的概率。当有多个模型，并且模型最后预测的类别一致，可以对多个模型预测的概率求平均。这里的模型可以是同一份数据训练的多个模型；也可以是不同的数据训练得到的模型。

这种方法一般效果提升比较大，缺点在于速度和内存都会增加，模型越多需要的内存越大。以pytorch为例，代码如下：

import os
import torch

os.environ["CUDA_VISIBLE_DEVICES"] = "1"

dir_path = "/save_checkpoint_path/"
# 存储模型的路径
start_id = 40  # 待求平均的模型开始索引
end_id = 50  # 待求平均的模型结束索引

models = []
for i in range(start_id, end_id):
    model_path = dir_path + "checkpoint_" + str(i) + ".pt"
    models.append(model_path)

input_x = [1, 2, 3]
# 假设input_x 是模型的输出
avg_pobs = None
for model in models:
    net = torch.load(model)
    prob = net(input_x) 
    avg_pobs.add_(prob)
avg_pobs.div_(len(models))

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

真稀奇AI销售卖货，比李佳琦还能“拿捏”人心

DAMO开发者矩阵

人形机器人行业日报｜机器人学会照镜子练嘴皮子了，Bolt跑出35km/h你追得上吗？

人形机器人正在从"能动"向"像人"进化。首形科技在攻克面部表情，DroidUp 在做体温模拟，MirrorMe 在追求极致运动能力。每家都在不同维度上逼近"像真人"这个终极目标。作为一个研究仿生人形机器人的人，我觉得 2026 年会是面部表情技术爆发的一年。首形科技的观察学习方案尤其值得关注——让机器人自己学，而不是人工编程每一个表情，这个思路太对了。明天见 👋。

DAMO开发者矩阵

2026 网站定制开发哪家技术硬？精选 10 家靠谱的网站建设公司

凭借扎实的技术实力与优质的服务品质，华科诚远已成功服务众多行业标杆客户，案例覆盖公益组织、央企国企、科技巨头、科研机构、知名品牌及地方协会等各类主体，具体包括：中国乡村发展志愿服务促进会、中国中铁、中科曙光、国家会展中心、国药励展、超算互联网、易控智驾、深圳机器人协会、京联集团、北京御生堂、港流科技、北京红蝠展览、宏远石油、杭州华鼎、苏州国家实验室、老舍茶馆、浙江港流、天津保安协会、重庆出租车协会