NTU RGB+D数据集上的ST-GCN实战：训练与测试完整流程

宣苓滢Rosa

1007人浏览 · 2026-02-07 04:12:11

宣苓滢Rosa · 2026-02-07 04:12:11 发布

NTU RGB+D数据集上的ST-GCN实战：训练与测试完整流程

【免费下载链接】st-gcn Spatial Temporal Graph Convolutional Networks (ST-GCN) for Skeleton-Based Action Recognition in PyTorch 项目地址: https://gitcode.com/gh_mirrors/st/st-gcn

Spatial Temporal Graph Convolutional Networks (ST-GCN) 是一种基于骨骼的动作识别算法，在NTU RGB+D等主流数据集上表现优异。本文将详细介绍如何在NTU RGB+D数据集上使用ST-GCN进行动作识别的完整训练与测试流程，帮助新手快速上手这一强大的动作识别工具。

一、环境准备：搭建ST-GCN运行环境

1.1 克隆项目代码库

首先需要获取ST-GCN项目代码，使用以下命令克隆仓库：

git clone https://gitcode.com/gh_mirrors/st/st-gcn
cd st-gcn

1.2 安装依赖包

项目依赖已在requirements.txt中列出，通过pip安装所有必要组件：

pip install -r requirements.txt

二、数据准备：NTU RGB+D数据集处理

2.1 下载NTU RGB+D数据集

NTU RGB+D是目前最常用的动作识别数据集之一，包含56,880个动作样本。请从官方渠道获取数据集后，将其解压到项目指定目录。

2.2 数据预处理

使用项目提供的工具脚本生成ST-GCN所需的输入格式：

python tools/ntu_gendata.py --data_path /path/to/ntu/dataset

该脚本会将原始骨骼数据转换为图结构表示，保存在data/ntu/目录下。

三、ST-GCN模型架构解析

ST-GCN创新性地将图卷积网络与时间卷积结合，能够有效捕捉骨骼动作的时空特征。其核心架构包含：

图构建模块：基于人体骨骼连接关系构建图结构
时空卷积块：同时进行空间图卷积和时间卷积
注意力机制：自动关注动作识别中的关键关节点

ST-GCN动作识别流程图：从视频输入到骨骼提取，再通过ST-GCN网络进行动作分类的完整流程

四、训练ST-GCN模型

4.1 配置训练参数

项目提供了NTU RGB+D数据集的训练配置文件，位于config/st_gcn/ntu-xsub/train.yaml和config/st_gcn/ntu-xview/train.yaml，分别对应交叉主体（XSub）和交叉视角（XView）两种评估协议。

4.2 启动训练

使用以下命令开始训练（以XSub协议为例）：

python main.py recognition -c config/st_gcn/ntu-xsub/train.yaml

训练过程中，模型权重会自动保存到work_dir/目录下。

五、测试模型性能

5.1 运行测试

训练完成后，使用测试配置文件评估模型性能：

python main.py recognition -c config/st_gcn/ntu-xsub/test.yaml --weights work_dir/xxx/xxx.pt

5.2 可视化动作识别结果

ST-GCN提供了可视化工具，可以直观展示动作识别过程：

python processor/demo_offline.py --video /path/to/video.mp4 --model work_dir/xxx/xxx.pt

ST-GCN动作识别效果演示：左上角为原始视频，右上角为骨骼提取结果，下方展示注意力热力图和识别结果

六、常见问题解决

6.1 训练过拟合

如果出现过拟合现象，可以尝试：

增加数据增强：修改feeder/feeder.py中的数据增强策略
调整正则化参数：在配置文件中修改weight_decay值

6.2 推理速度优化

若需要提升实时性，可：

使用net/utils/tgcn.py中的轻量级时序卷积模块
调整输入骨骼序列长度，在config/st_gcn/ntu-xsub/test.yaml中修改window_size参数

七、总结与扩展

通过本文的步骤，你已经掌握了在NTU RGB+D数据集上使用ST-GCN进行动作识别的完整流程。该项目还支持Kinetics等其他数据集，只需修改对应配置文件即可。ST-GCN作为骨骼动作识别的经典方法，其代码结构清晰，适合初学者学习和二次开发。

想要进一步提升性能，可以尝试项目中的双流模型版本，配置文件位于config/st_gcn.twostream/目录下，结合RGB信息和骨骼数据实现更高的识别准确率。

【免费下载链接】st-gcn Spatial Temporal Graph Convolutional Networks (ST-GCN) for Skeleton-Based Action Recognition in PyTorch 项目地址: https://gitcode.com/gh_mirrors/st/st-gcn

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

免费多模态大模型来了：Agnes 三大模型实测与 Claude Code 接入指南

DAMO开发者矩阵

国产协作机器人怎么选？从越疆、UR、节卡、遨博的产品路线看真实差异

DAMO开发者矩阵

中国机器人量产真相：人与机器人的放手一搏

DAMO开发者矩阵

所有评论(0)

查看更多评论

宣苓滢Rosa

@gitblog_00765

已为社区贡献26条内容

NTU RGB+D数据集上的ST-GCN实战：训练与测试完整流程

宣苓滢Rosa

NTU RGB+D数据集上的ST-GCN实战：训练与测试完整流程

一、环境准备：搭建ST-GCN运行环境

1.1 克隆项目代码库

1.2 安装依赖包

二、数据准备：NTU RGB+D数据集处理

2.1 下载NTU RGB+D数据集

2.2 数据预处理

三、ST-GCN模型架构解析

四、训练ST-GCN模型

4.1 配置训练参数

4.2 启动训练

五、测试模型性能

5.1 运行测试

5.2 可视化动作识别结果

六、常见问题解决

6.1 训练过拟合

6.2 推理速度优化

七、总结与扩展

所有评论(0)

温馨提示：您尚未绑定手机号

宣苓滢Rosa