文章的目的是做一个通用的人形机器人控制器。
把来自不同来源的动作意图(文本,音乐,外面接运动规划器等等),转成机器人可以实时执行的全身关节控制命令。
文章对GMT、Any2Track、BeyondMimic做了比较,都更好

SONIC 本身不是一个单独的大模型名称,而是一套由多个模块组成的控制框架
注意:他是一个框架,主要解决跟踪控制问题。
比如:

  1. GR00T N1.5 VLA输出 universal token ,然后接入 SONIC 的 universal token interface,输出动作 token 或遥操作格式控制信号。
  2. VR 通过 human motion encoder 接入 SONIC 的 universal token space控制
  3. GEM模型估计人人类运动意图,然后通过 SONIC 的 human motion encoder 输入控制策略。
  4. 还有Mocap动补数据等等接口

输入包括两类信息

机器人本体感知状态:关节位置、关节速度、根部角速度、重力方向、上一时刻动作,并且使用 10 步历史。
运动命令:可以是 robot motion、human motion,或者 hybrid motion。

输出是:

目标关节位置,再由机器人各关节的 PD controller 跟踪。

Robot motion output = robot joint positions and velocities over future frames
Robot control output = 29自由度的joints

在这里插入图片描述

模型结构

推理时整体数据流程:encoder到decoer就是PPO的Actor网络

参考动作 / 用户命令 / VLA token / GEM 生成的人体动作
        ↓
Encoder(三个并行MLP encoder把不同类型的运动输入映射到共享 latent space) 
+ FSQ Quantizer
        ↓
Universal token
        ↓
Robot Control Decoder(2个 MPL Decoder)
Robot Control Decoder输出动作;
Robot Motion Decoder 帮助 latent space 学得更稳;
        ↓
目标关节位置
        ↓
PD controller
        ↓
机器人真实运动

训练时:

当前机器人状态 + motion command
        ↓
encoder + FSQ + control decoder
        ↓
输出 action:目标关节位置
        ↓
仿真环境 Isaac Lab
        ↓
机器人运动结果
        ↓
根据 tracking reward / penalty 算 reward
        ↓
PPO 更新 policy

输入:
- 机器人当前状态:关节角、关节速度、身体角速度、重力方向、上一帧动作等
- 参考动作命令:robot motion / human motion / hybrid motion 经过 encoder 得到的 token

输出:
- 29 个关节的目标位置

同时训练时还加了个robot motion decoder,辅助重建控制动作(不是直接输出机器人控制动作)作为 auxiliary supervision,用来改善 latent space 和 feature learning

encoder
  ↓
FSQ
  ↓
universal token
  ↓	
robot motion decoder D_r
  ↓
reconstructed robot motion command

提出方法 FSQ Quantizer:把 latent 表示变成 universal token
一种 VQ-VAE 的改进方法,通过中断梯度将latent变成离散的动作token

模型总结:

SONIC 的 actor 主要是 encoder + FSQ quantizer + robot control decoder D_c​,它输出机器人关节目标位置;这个 actor 用 PPO 在仿真中训练。与此同时,论文额外加了 robot motion decoder D_r​ 以及 reconstruction / token alignment / cycle consistency 等辅助 loss,用来把 robot、human、hybrid 三种输入对齐到同一个 universal token space。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐