触觉的中间道路:压力中心表示如何打通灵巧操作的Sim-to-Real鸿沟
摘要: 苏黎世联邦理工学院(ETH Zurich)与加州大学伯克利分校(UC Berkeley)的研究团队提出了一种基于物理的压力中心(Center-of-Pressure, CoP)触觉表示法,解决了机器人触觉Sim-to-Real迁移的难题。CoP将高密度触觉数据压缩为合力向量和等效接触点,既保留了力学信息,又对仿真偏差具有鲁棒性。该方法通过可微分应力分布模型和无需真值传感器的自校准技术,实现
导读
想象一下,你闭着眼睛把一把钥匙插进锁孔。你的手指不需要"看到"锁孔在哪里——指尖传来的压力分布、接触位置的微小偏移,就足以引导你完成这个精密操作。这种人类习以为常的触觉能力,对机器人来说却是一道极难跨越的门槛。
问题的关键不在于触觉传感器不够好,而在于一个根本性的两难:高密度的触觉数据在模拟器中无法被精确复现,直接使用原始传感器读数做 Sim-to-Real 迁移几乎注定失败;而现有方法为了保证迁移的稳定性,往往把丰富的触觉信号压缩成简单的"有没有碰到"(二值接触),这又丢掉了精细操作所必需的力学细节。
ETH Zurich 与 UC Berkeley 的研究团队提出了一个优雅的折中方案——**压力中心(Center-of-Pressure, CoP)**表示法。这种基于物理原理的中间表示,既保留了高密度接触信息的核心要素,又对传感器噪声和仿真偏差具有天然的鲁棒性。在多指灵巧手上的实验表明,基于 CoP 的策略能在完全无视觉的"盲操"条件下实现零样本 Sim-to-Real 迁移,并且在插拔和球平衡两项高难度任务中全面超越了既有基线方法。
背景与动机
灵巧操作(Dexterous Manipulation)是机器人领域的核心挑战之一。近年来,基于大规模人类示教的模仿学习取得了令人瞩目的进展,但真实世界数据的采集成本始终是一个无法回避的瓶颈——尤其是对多指手这类高自由度系统而言。Sim-to-Real 强化学习提供了一条有吸引力的替代路径:在模拟器中无限量地生成训练数据,然后将学到的策略直接部署到真实硬件上。
然而,触觉模态在 Sim-to-Real 框架下长期处于尴尬地位。问题的根源在于 Sim-to-Real Gap(仿真-现实差距):
-
模拟器的局限:当前主流仿真器对接触力学的建模存在系统性偏差,尤其是硅胶覆盖层的形变、多点接触的力分布等细节难以被精确复现。
-
高维数据的脆弱性:一个典型的触觉阵列传感器可能包含数十个独立的感知单元(taxel),直接使用这些高维原始读数训练的策略,往往在迁移到真实传感器时彻底崩溃。
-
过度简化的代价:为了规避上述问题,大量现有工作将触觉数据退化为二进制信号("接触/未接触"),这虽然保证了迁移的鲁棒性,但也彻底放弃了力的大小、方向和分布等关键信息。

上图展示了本文的核心构思。左侧是压力中心(CoP)的几何定义——它将一个接触面上的力分布浓缩为一个3D力向量和一个接触点位置;右侧是为实现 taxel 到 CoP 转换而设计的应力分布模型,该模型是可微分的,这一点至关重要。
核心方法
从原始触点到压力中心:一种物理驱动的信息压缩
CoP 的核心思想可以用一个直觉来理解:当你用手指按压桌面时,不同的按压方式——用力大小、倾斜角度、接触面积——都会产生不同的压力分布。与其试图精确重建每一个触觉单元的读数(在仿真中几乎不可能做到),不如提取这个分布的"摘要"——即接触力的合力方向和作用点位置。
具体而言,每个指尖的触觉阵列被压缩为一个 CoP 表示,包含:
-
合力向量:接触产生的 3D 力向量(包含法向和剪切分量)
-
接触点位置:合力作用的等效位置(压力中心)
这种表示的精妙之处在于它的物理锚定性(Physics-Grounded):无论模拟器和真实传感器在底层读数上存在多大差异,力的合成和等效作用点都遵循同样的物理定律。这赋予了 CoP 天然的跨域鲁棒性。
为了建立从原始 taxel 读数到 CoP 的映射,研究团队提出了一个参数化的应力分布模型。该模型假设每个活跃 taxel 施加的力会以距离衰减的方式扩散到周围区域,衰减权重服从高斯分布。最终,CoP 位置通过所有活跃 taxel 位置的加权平均计算得出,而合力通过求解正则化最小二乘问题获得。
整个前向映射过程是完全可微分的,这意味着它不仅适用于策略训练中的高效计算,还能反向传播梯度——为接下来的传感器校准奠定了基础。
无需真值力测量的传感器校准

在将 CoP 应用于真实硬件之前,需要解决一个实际问题:每个 taxel 在传感器坐标系中的朝向是未知的。传感器规格书给出的是理想值,但指尖的复杂曲面几何使得实际安装后的朝向会产生偏差。
传统的校准方法需要昂贵的力/扭矩传感器提供真值测量,而本文提出了一种基于微分动力学的巧妙替代方案。其核心洞察是:如果机器人处于静力平衡状态(关节扭矩恰好平衡外力),那么触觉读数、关节角度和机器人动力学模型之间存在一组隐式约束。通过最小化这些约束的违反程度,可以反推出 taxel 的旋转参数。
校准的具体流程分为两步:
-
数据采集:在真实机器人上运行一个 PID 控制器维持静力平衡,同时向指尖施加随机接触力,收集 taxel 读数和关节角度的配对数据。
-
梯度优化:将 taxel 旋转参数化为 SVD 形式的旋转矩阵,通过正向运动学计算预测扭矩,与实际记录的关节扭矩对比,反向传播梯度更新旋转参数。
这种方法的核心优势在于它只依赖机器人自身的关节编码器和触觉传感器——不需要任何额外的力传感器设备。
策略训练与零样本迁移
策略训练采用标准的强化学习框架,观测空间包括关节位置、关节速度、指尖的 CoP 表示以及前一步的动作。值得注意的是,策略在完全无视觉的条件下工作——所有任务都是"盲操"(Blind Manipulation),机器人仅凭触觉和本体感知完成操作。
训练完成后,策略直接部署到真实硬件上,不做任何微调(Zero-shot Transfer)。在推理时,真实传感器的原始 taxel 读数通过校准后的前向模型实时转换为 CoP 表示,送入策略网络。
实验与结果
插拔任务:精准与自适应的证明

插拔任务(Peg-in-Hole Insertion)要求多指手抓握一个柱体,将其完全插入对应形状的孔中。实验使用了 6 种不同截面形状(三角形、十字形、五边形、六边形、圆形、星形),每种形状在初始位姿上施加了随机扰动。

上图清晰地展示了各种触觉表示方法在插拔任务中的整体成功率对比。CoP 以 78% 的成功率显著领先于所有基线方法。相比之下,二值接触(binary)仅为 53%,原始触点(taxel)仅为 48%,甚至不如力幅值(mag, 55%)和力方向量(vec, 67%)。
这组数据揭示了一个重要的规律:信息保真度越高的表示不一定越好。原始 taxel 读数虽然信息量最大,但由于 Sim-to-Real Gap 的放大效应,其迁移表现反而劣于更多简化表示。CoP 的成功在于它找到了信息丰富度与跨域鲁棒性之间的最优平衡点。
更值得关注的是 CoP 在分布外初始化(OOD Init)条件下的表现。当物体初始位姿显著偏离训练分布时,CoP 策略仍能维持最低的成功率下降幅度,展现出强大的鲁棒性和自适应能力。二值接触策略在 OOD 条件下的恢复能力明显不足——它缺乏足够的触觉信息来引导重新对齐。
球平衡任务:涌现行为的观察窗口

球平衡任务要求四根手指支撑一块平板,将放置其上的球体移动到中心并保持平衡。这项任务的挑战在于:训练时使用的是光滑球体,而测试时使用了四种不同材质(棒球、月球纹理球、曲棍球、高尔夫球)、不同质量和不同摩擦系数的球体——这些物理属性与训练分布差异很大。
CoP 条件下的策略展现出了两种截然不同的涌现运动模式:面对较轻且光滑的球体,策略采用"激进单步加速-减速-稳定"(A-D-S)模式;面对较重且摩擦力更大的球体,策略切换为更保守的"两步居中"模式。这种自适应行为并非被显式编程,而是从训练过程中自然涌现的。
物体状态预测与质量感知

最令人惊喜的发现来自对策略内部状态的分析。研究团队提取了策略网络循环层的 256 维隐状态,进行线性探测(Linear Probing)和 PCA 可视化,发现:
-
位置预测:CoP 条件下的策略能够从隐状态中高精度地预测球的 xy 平面位置,RMSE 显著低于其他基线方法。
-
质量聚类:对三种不同质量(50g、150g、258g)球体的轨迹进行 PCA 降维后,CoP 策略的隐状态自然地形成了按质量分离的聚类,轮廓系数(Silhouette Coefficient)随时间推移逐渐增大。
这意味着,基于 CoP 的策略在学习控制的过程中,自动学会了"感知"物体的物理属性——它不仅知道球在哪里,还在内部表征中编码了球有多重。这是一种典型的涌现能力:研究者从未显式地要求策略估计质量,但高质量的触觉反馈使得这种感知成为了控制的自然副产品。
讨论与思考
这篇工作真正的创新在哪里? 表面上看,CoP 并不是一个全新的物理概念——压力中心在力学和生物力学中早已有之。但将其引入机器人触觉表示设计,并通过微分动力学建立起一套完整的"可微分前向模型 + 自校准 + 零样本迁移"流水线,这才是这项工作的核心贡献。它示范了一条清晰的设计哲学:不要试图在模拟中完美复现真实传感器,而要找到一种真实和模拟共享同一物理定律的中间表示。
局限性值得正视。 目前的 CoP 实现将力向量限制在表面法线方向(法向力),这意味着剪切力的估计依赖于简化的模拟——而实际接触中剪切力往往携带着关于滑动趋势的重要信息。此外,实验仅在固定基座的多指手上进行,尚未扩展到带机械臂的移动操作场景。
对领域的更大启示可能在于:在 Sim-to-Real 的触觉应用中,追求传感器模型的精度或许是一条错误的道路。与其投入大量精力让模拟器忠实复现每一个 taxel 的响应特性,不如寻找那些对模拟精度不敏感、但对任务执行至关重要的物理不变量。CoP 恰好满足这一标准——力的合成和等效作用点是与传感器实现无关的物理事实。
从更长远的视角看,CoP 表示法还为触觉信号的标准化提供了一种可能。不同厂商、不同原理的触觉传感器(电阻式、电容式、光学式)在原始读数层面几乎不可比较,但它们都能被转换为 CoP 这一统一的中间表示。这对于构建跨传感器、跨平台的通用操作策略具有潜在的深远意义。
总结
-
CoP(压力中心)是一种"物理锚定"的触觉中间表示,在信息丰富度和 Sim-to-Real 鲁棒性之间取得了此前未被发现的最优平衡。
-
微分动力学校准方案消除了对真值力传感器的依赖,仅用机器人自身的关节编码器和触觉阵列即可完成标定,大幅降低了部署门槛。
-
零样本迁移在两项盲操任务中全面超越基线:插拔任务成功率 78%(vs. 二值接触 53%),球平衡任务中展现出对未见物理属性的自适应能力。
-
策略内部自动涌现了物理属性感知——质量估计、位置跟踪等能力作为控制的副产品自然出现,而非显式训练的结果。
-
设计哲学的启示:在 Sim-to-Real 触觉应用中,寻找"物理不变的中间表示"比追求传感器模型精度更有前途。
本文基于 Beyond Binary: Sim-to-Real Dexterous Manipulation with Physics-Grounded Contact Representation[1] 解读。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐

所有评论(0)