Science Robotics 上半年封面文章！盘点当前具身智能的标杆研究

深蓝学院

73人浏览 · 2026-07-04 17:15:00

深蓝学院 · 2026-07-04 17:15:00 发布

六篇封面，六个方向，一个共同命题

——精华前沿

01 1月：告别"恐怖谷"，会多国语言唇形同步的面部机器人

02 2月：不怕强光致盲，液态金属驱动的仿生人工瞳孔

03 3月：触觉胜过视觉，外骨骼化身"隐形指挥家"

04 4月：海量数据喂养，大型行为模型（LBM）让机械臂更灵巧

05 5月：听音辨位，多模态水下机器人自主绘制珊瑚礁地图

06 6月：掌上变形金刚，世界最小月面巡视器创造历史

07 六篇封面，六个方向，一个共同命题

2026年上半年，《Science Robotics》共刊出6期封面文章，涵盖人形机器人面部表情生成、仿生视觉感知、触觉反馈与人机协作、大规模多任务操作模型、自主水下环境感知以及地外天体探测等多个前沿方向。

这些研究分别来自哥伦比亚大学、北卡罗来纳州立大学、根特大学、丰田研究院、伍兹霍尔海洋研究所及日本宇宙航空研究开发机构等国际知名科研团队。

这6篇封面文章不仅展示了机器人硬件本体的突破，更揭示了具身智能发展的核心趋势：

让机器人在更复杂的物理世界中，实现更自然的人机交互与更高度的自主探索。

今天，我们按照刊发时间顺序一口气盘点这6项顶尖工作。

01 1月：告别"恐怖谷"，会多国语言唇形同步的面部机器人

实验室：哥伦比亚大学Creative Machines Lab（创意机器实验室），机器人面部表情与具身感知领域的先驱团队之一。

当人类与一个人形机器人交谈时，如果它的嘴唇动作与发出的声音完全不同步，这种体验往往会让人陷入"恐怖谷"的诡异感中。

因此，研究开发了一个配备26个电机的柔性硅胶面部机器人，并提出了一种基于自监督学习的视觉-语言-动作（VLA）模型框架。

这台机器人的学习过程分为两个阶段：

首先在镜子前通过随机运动，学习自身面部电机与表情变化之间的映射关系（自我感知阶段）；
随后，通过观看大量的YouTube视频，学习人类发音时的唇形变化规律。

最终，它不仅能精准匹配英语的发音口型，还能在未经特定训练的情况下，实现多种语言的实时唇形同步，其唇形覆盖了24个辅音和16个元音。

▲图 | Science Robotics 2026年1月封面

02 2月：不怕强光致盲，液态金属驱动的仿生人工瞳孔

实验室：北卡罗来纳大学教堂山分校应用物理科学系Bai Lab，在可穿戴传感器和仿生感知器件领域有深厚积累。

在强光环境下，无论是自动驾驶汽车的摄像头还是机器人的视觉传感器，都容易出现"过曝"导致短暂致盲。

而人类和许多动物的瞳孔却能根据光线强弱自动缩放，这一能力正是具身机器人在户外场景中亟需解决的痛点。

这项研究展示了一种突破性的液态金属仿生人工视觉系统。该系统包含三大核心组件：半球形仿生视网膜（64像素光探测器阵列，视野达108°）、液态金属神经元，以及最核心的自适应液态金属瞳孔。

▲图 | 液态金属仿生视觉系统的整体架构：半球形视网膜、液态金属神经元与自适应瞳孔三大模块协同工作，实现闭环光反射控制

研究人员在PDMS微通道中封装了液态金属EGaIn，通过电化学驱动，液态金属可以像真实瞳孔一样改变形状，甚至能模拟猫的竖瞳、羊的横瞳或乌贼的W型瞳孔。

在强光照射下，该系统能自动闭环控制瞳孔收缩，显著减少过曝，从而大幅提升了机器视觉在复杂光照条件下的目标识别准确率。

这种硬件级别的自适应视觉系统，为具身机器人在户外复杂多变的光照环境中稳定工作提供了全新的仿生学思路。

03 3月：触觉胜过视觉，外骨骼化身"隐形指挥家"

实验室：比利时根特大学艺术与哲学学院的IPEM，专注于音乐、运动与具身认知（Embodied Cognition）的交叉研究。

在人类共同演奏乐器或搬运重物时，除了眼神交流和听觉，身体的直接接触（触觉反馈）往往传递着最直接的信号。

那么：机器人能否成为人与人之间物理沟通的"媒介"？

研究团队让20对小提琴演奏者（包含业余和专业选手）分别穿戴上肢外骨骼进行二重奏。

这套外骨骼能够感知两位演奏者的动作差异，并向肩部和肘部施加相应的扭矩。

实验结果表明，在协调两人动作方面，这种机器人介导的触觉反馈（Haptic feedback）比直接的视觉反馈更有效。许多演奏者甚至没有意识到他们被物理力量连接在一起，但他们的演奏同步率却得到了显著提升，尤其是在结合了听觉、视觉和触觉的多模态反馈（AVH）条件下表现最佳。

▲图 | 两名小提琴演奏者穿戴上肢外骨骼进行二重奏：机器人介导的触觉反馈在无需演奏者主动意识的情况下，显著提升了双人协作的同步精度

在具身智能领域，物理人机交互（pHRI）一直是核心难题。这项研究证明了通过可穿戴机器人进行触觉信息传递的巨大潜力，未来不仅可用于音乐教学，还能广泛应用于医疗康复和工业协作场景。

04 4月：海量数据喂养，大型行为模型（LBM）让机械臂更灵巧

研究团队：丰田研究院（Toyota Research Institute, TRI），专注于通用机器人操作、人机协作界面与自动驾驶研究。在机器人操作领域，TRI近年持续推进大规模模仿学习与行为克隆研究，是全球机器人操作基础模型研究的重要力量之一。

大语言模型（LLM）已经证明了基于海量数据预训练的有效性，在机器人操作领域，是否也能通过海量数据训练出一个通用的"大型行为模型"（Large Behavior Models, LBM）？

于是该研究团队将扩散策略（Diffusion Policy）范式扩展到大规模多任务数据集上，进行了大规模预训练，并提出了一套具有统计置信度的评估流程，在仿真和真实世界中对这些模型的能力进行了严格分析。

▲图 | 基于大型行为模型（LBM）控制，两台机械臂在LBM控制下自主完成安装自行车转子这一高精度双手协调任务的场景

在真实世界的双臂机械臂平台上，这个LBM展示了卓越的泛化能力。研究团队在仿真和真实世界中共进行了1800次真实操作任务评估，结果表明LBM在面对训练中未曾见过的新任务时，表现显著优于单任务基线策略。

随着预训练数据规模的扩大，模型性能持续提升，目前尚未看到明显的性能上限拐点。

LBM通过海量数据隐式学习物理世界的交互规则，正推动机器人从"单一任务专精"向"通用多任务操作"大步迈进。

05 5月：听音辨位，多模态水下机器人自主绘制珊瑚礁地图

实验室：伍兹霍尔海洋研究所（WHOI）深海潜水实验室WARP Lab，专注于开发能在复杂海洋环境中进行自适应数据采集的机器人算法，是全球领先的海洋自主机器人研究团队之一。

海洋蕴藏着地球上最丰富的生物多样性，但传统的海洋生态监测往往依赖人工潜水，效率低下且覆盖面有限。更棘手的是，珊瑚礁中生物多样性最丰富的"热点区域"往往隐藏在视觉难以触达的地方。

该团队研究了一款名为CUREE（Curious Underwater Robot for Ecosystem Exploration，好奇水下生态探索机器人）的多模态自主水下机器人。

▲图 | CUREE水下机器人的多模态探测工作流：声学热点制图（远距离）与视觉鱼类普查（近距离）相互配合，实现对珊瑚礁生物多样性热点的自主发现与绘图

CUREE配备了摄像头和水听器，集成了四种互补的探测行为：

视觉鱼类调查、声学热点制图、声音引导归巢以及哨兵物种追踪。

在加勒比海礁石的真实海域测试中，CUREE能够通过被动声学系统探测远距离的声音热点并自主导航前往，到达目标区域后再利用视觉系统进行近距离的详细鱼类普查，并成功追踪了一条梭鱼。

这种结合了长距离声学感知和近距离视觉感知的多模态探测策略，让机器人在未知的广阔物理空间中具备了极强的自主探索能力。

06 6月：掌上变形金刚，世界最小月面巡视器创造历史

研发团队：JAXA（日本宇宙航空研究开发机构）牵头，联合索尼集团、多美（TOMY）玩具公司和同志社大学共同研制。

在松软的月球表面，小型轮式机器人极易陷入月壤，且受限于体积，其计算能力和通讯能力往往非常羸弱。如何在严苛的太空环境中实现微型机器人的自主探索，是一项极具挑战性的工程难题。

真宽超微型月面巡视器LEV-2（昵称SORA-Q），直径仅8厘米、重228克的球形探测器，于2023年9月随SLIM探测器发射，并于2024年1月20日随SLIM成功登月。

它在月球表面展开后，变形为包含两个轮子、一个尾部稳定器和摄像头的移动构型，巧妙地利用偏心轮机构在松软月壤上移动，有效防止了下陷。

▲图6 | Science Robotics 2026年6月封面

在长达108分钟的运行中，它完全依靠自身算力完成了姿态稳定、路径规划、图像拍摄、目标识别（成功识别出着陆器）以及数据筛选传输，全程没有依赖任何地球地面的遥控指令，成为世界首个完全自主完成月面探测的巡视器。

SORA-Q的成功，证明了即使是极其受限的微型硬件平台，也能通过巧妙的机械设计和高度自主的控制算法，在极端地外环境中完成复杂的具身智能任务。

07 六篇封面，六个方向，一个共同命题

回顾2026年上半年 Science Robotics 的这6篇封面文章，我们可以清晰地看到具身智能技术演进的两条主线：

一是感知与交互的深度融合。

无论是多语种唇形同步的面部机器人、液态金属仿生眼，还是传递触觉的外骨骼，都在试图打破机器与物理世界、机器与人类之间的隔阂，让交互变得更加多模态、更加自然。

这些工作表明，具身智能的传感器不仅仅是接收数据的终端，更是感知世界、与世界沟通的媒介。

二是极端条件下的高度自主性。

从海底听音辨位的CUREE，到月背独立运行的SORA-Q，再到依靠海量数据掌握复杂操作的LBM，具身智能正在摆脱对人类实时指令的依赖，学会在复杂的物理约束中寻找最优解。

6篇封面文章所涉及的应用场景跨度极大：从音乐厅到月球表面，从深海珊瑚礁到工厂操作台。

这说明具身智能的核心技术问题（感知、交互、自主决策）是普适的。

随着硬件本体的不断微型化、仿生化，以及底层行为模型的持续进化，机器人将以前所未有的深度融入我们的物理世界。

Ref

1. Hu, Y., et al. (2026). Learning Realistic Lip Motions for Humanoid Face Robots. Science Robotics, 11(110).Science Robotics封面文章：跨11种语言实现人脸机器人 “唇音零延迟”！

2. Liang, K., et al. (2026 ). Bioinspired adaptive pupil reflex based on liquid-metal shape-shifters for machine vision. Science Robotics, 11(111).

3. Michałko, A., et al. (2026 ). Robot-mediated haptic feedback outperforms vision in violin duo coordination. Science Robotics, 11(112).

4. Barreiros, J., et al. (TRI LBM Team ). (2026). A Careful Examination of Large Behavior Models for Multitask Dexterous Manipulation. Science Robotics, 11(113), eaea6201.

5. McCammon, S., & Girdhar, Y. (2026 ). Autonomous seeking and mapping coral reef biodiversity hotspots with a multimodal AUV. Science Robotics, 11(114).

6. Hirano, D., et al. (2026 ). From ball to rover: Transformable palm-sized rover SORA-Q for autonomous lunar exploration. Science Robotics, 11(115)

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

Frontiers 期刊成果｜Hello Robot 移动操作机器人实现无损伤授粉

DAMO开发者矩阵

智能场假说：共振动力学与物理具身的统一框架（源自实验室科研工作感触）

DAMO开发者矩阵

中国编码器市场“十五五”规划及前景趋势预测报告2026年版

编码器是运动控制系统中的基础反馈部件，应用于伺服系统、数控机床、机器人关节、电梯曳引、包装装备、物流输送和医疗设备等场景。编码器市场并非依赖单一下游的高波动市场，而是由机床、机器人、电梯、包装设备、汽车和医疗设备等多类自动化场景共同支撑。中国设备厂在机器人、包装、物流、机床和新能源装备中更强调交期、成本和快速技术响应，本土编码器供应商可以通过二供、联合开发和行业定制扩大客户覆盖。进入机床、机器人、