【论文阅读】SONIC: Supersizing Motion Tracking for Natural Humanoid Whole-Body Control
文章的目的是做一个通用的人形机器人控制器。
把来自不同来源的动作意图(文本,音乐,外面接运动规划器等等),转成机器人可以实时执行的全身关节控制命令。
文章对GMT、Any2Track、BeyondMimic做了比较,都更好
SONIC 本身不是一个单独的大模型名称,而是一套由多个模块组成的控制框架。
注意:他是一个框架,主要解决跟踪控制问题。
比如:
- GR00T N1.5 VLA输出 universal token ,然后接入 SONIC 的 universal token interface,输出动作 token 或遥操作格式控制信号。
- VR 通过 human motion encoder 接入 SONIC 的 universal token space控制
- GEM模型估计人人类运动意图,然后通过 SONIC 的 human motion encoder 输入控制策略。
- 还有Mocap动补数据等等接口
输入包括两类信息:
机器人本体感知状态:关节位置、关节速度、根部角速度、重力方向、上一时刻动作,并且使用 10 步历史。
运动命令:可以是 robot motion、human motion,或者 hybrid motion。
输出是:
目标关节位置,再由机器人各关节的 PD controller 跟踪。
Robot motion output = robot joint positions and velocities over future frames
Robot control output = 29自由度的joints

模型结构
推理时整体数据流程:encoder到decoer就是PPO的Actor网络
参考动作 / 用户命令 / VLA token / GEM 生成的人体动作
↓
Encoder(三个并行MLP encoder把不同类型的运动输入映射到共享 latent space)
+ FSQ Quantizer
↓
Universal token
↓
Robot Control Decoder(2个 MPL Decoder)
Robot Control Decoder输出动作;
Robot Motion Decoder 帮助 latent space 学得更稳;
↓
目标关节位置
↓
PD controller
↓
机器人真实运动
训练时:
当前机器人状态 + motion command
↓
encoder + FSQ + control decoder
↓
输出 action:目标关节位置
↓
仿真环境 Isaac Lab
↓
机器人运动结果
↓
根据 tracking reward / penalty 算 reward
↓
PPO 更新 policy
输入:
- 机器人当前状态:关节角、关节速度、身体角速度、重力方向、上一帧动作等
- 参考动作命令:robot motion / human motion / hybrid motion 经过 encoder 得到的 token
输出:
- 29 个关节的目标位置
同时训练时还加了个robot motion decoder,辅助重建控制动作(不是直接输出机器人控制动作)作为 auxiliary supervision,用来改善 latent space 和 feature learning
encoder
↓
FSQ
↓
universal token
↓
robot motion decoder D_r
↓
reconstructed robot motion command
提出方法 FSQ Quantizer:把 latent 表示变成 universal token
一种 VQ-VAE 的改进方法,通过中断梯度将latent变成离散的动作token
模型总结:
SONIC 的 actor 主要是 encoder + FSQ quantizer + robot control decoder D_c,它输出机器人关节目标位置;这个 actor 用 PPO 在仿真中训练。与此同时,论文额外加了 robot motion decoder D_r 以及 reconstruction / token alignment / cycle consistency 等辅助 loss,用来把 robot、human、hybrid 三种输入对齐到同一个 universal token space。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)