单卡可以训练，但是多卡报错：参数未参与损失计算导致分布式训练（DDP）梯度同步失败

错误明确指出 Parameter indices which did not receive grad（索引 244、245、286、287、330、331、374、375），这些参数属于模型中定义但未用于损失计算的模块（如 frequency_enhancer、ffm）。在分布式训练中，所有参数必须参与梯度计算，否则 DDP 无法同步梯度，导致崩溃。

shanks66

403人浏览 · 2025-07-17 16:50:16

shanks66 · 2025-07-17 16:50:16 发布

核心问题确认

步骤 1：定位 DDP 初始化位置

打开 ultralytics/engine/trainer.py 文件，搜索 DistributedDataParallel 或 DDP，找到模型包装为 DDP 的代码。通常在 Trainer 类的 _do_train 或 init_model 方法中，类似：

# 原始代码（示例）
self.model = DistributedDataParallel(self.model, device_ids=[self.args.device])

步骤 2：添加 find_unused_parameters=True 参数

修改 DDP 初始化代码，允许未使用的参数：

# 修改后
self.model = DistributedDataParallel(
    self.model,
    device_ids=[self.args.device],
    find_unused_parameters=True  # 关键：允许未使用的参数，跳过梯度检查
)

步骤 3：保存并重新训练

此参数会让 DDP 忽略未使用的参数，不再检查梯度同步，直接解决报错。

具体问题具体分析，解决思路是允许未使用的参数，跳过梯度检查

找不到代码位置，可以给大模型来定位具体的位置，结合实际情况来进行解决

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

2026年最新AI基础入门免费公开课：从Vibe-Coding到智能体Agent全栈教程

DAMO开发者矩阵

深度学习驱动的控制方法详解（九）：神经网络自适应控制

本文介绍了神经网络自适应控制方法，该方法结合了神经网络的逼近能力和自适应控制的稳定性保证。文章首先指出深度强化学习在控制领域存在的稳定性问题，进而提出神经网络自适应控制的解决方案。核心内容包括：1) 通过神经网络逼近系统未知动力学；2) 基于Lyapunov理论设计控制律和自适应更新规则；3) 采用径向基函数网络(RBFNN)实现高效逼近；4) 通过稳定性分析证明闭环系统的有界性。该方法特别适用于