“以人为中心”的具身数采逐渐成为首选,产业玩家格局初现~
相较于传统的遥控真机数据,UMI数据通过标准化接口实现了数据的自动化采集与传输,无需人工进行复杂的操作与数据整理,显著提升了采集效率。同时,由于其“去耦合”特性,研究者无需为不同机器人平台单独开发数据采集系统,降低了前期投入成本。
“以人为中心”的具身数采逐渐成为首选,产业玩家格局初现~
具身智能之心 具身智能之心 2025年12月29日 08:02 中国香港
机器人算法这么多?为什么很难走进真实场景?
今年以来,围绕机器人操作任务,国内外团队产出了大量的工作。从physical intelligence 到国内的具身独角兽、高校,不断在刷新各类指标,提升泛化性能。许多VLA和RL框架也逐渐完善,git上star动辄2k+,不少研究团队持续在维护使用。
但也有一个很明显的问题,为什么VLA在真实场景中应用的很少?有些机器人在各类展会上的效果还算可以,但稍微变动场景,就感觉“失明”一样,看着“张牙舞爪”。特别是叠衣服、拆箱子等日常生活中的一些任务,动作固化、动作不够优雅是常态。
这个问题的根因是模型不够泛化,做过模仿学习的童鞋应该知道,模型如果“泛化性”不够,很难真的应用。特别是具身机器人的开放场景,可能有N种动作,需要大量的数据喂给模型。
行业内一些数据采集成本高、周期长,难以规模化,定制化属性高。这就引出了一个非常重要的问题,如何有效获取大规模高质量数据,让模型能够”泛化“,能够理解任务对应的行为和操作方式。
从成本和规模上已演变出四条数据路线
目前业界已形成多种具身数据获取方案,不同方案在数据质量、价值密度、成本等多个维度存在显著差异,适配不同的研发阶段与应用场景。
主流的具身数据类型包括UMI数据、遥控真机数据、仿真数据与人类视频数据。行业之所以形成这四种核心方案,本质上是在“数据质量”与“获取成本”之间寻找最优平衡——高质量数据能直接提升模型性能,但往往伴随高昂的获取成本;低成本数据可实现规模化采集,但需要通过后续处理提升其价值密度。
UMI数据
UMI是通用操作接口 (Universal Manipulation Interface)的含义。24年迟宬和许臻佳两位大佬的研究工作,核心是用一只手持夹爪 + 腕部视角相机,采集与机器人末端同构的观测和动作数据,还入围了24年RSS的Finalist。
其核心优势在于通过统一的接口实现不同机器人平台的数据互通与高效采集,为具身智能模型的通用化训练提供了基础。
遥控真机数据
遥控真机数据的获取成本极高(需要购置真实机器人、搭建真实场景、投入专业操控人员),但业界仍将其视为核心数据类型,原因主要有三点:
-
一是真实环境的不可替代性,仿真环境无论如何优化,都无法完全复现真实物理世界的复杂性;
-
二是高价值密度,遥控真机数据往往对应完整的任务闭环(如“开门-取物-放置”),数据中包含了人类应对复杂场景的决策逻辑与动作技巧;
-
三是商业化落地的必经之路,遥控真机数据是验证模型在真实场景中性能的核心依据,缺乏这类数据支撑,算法的商业化落地阻力较大。
仿真数据
目前行业内主流的仿真方案有两种:纯仿真数据和real2sim2real方案。相比于纯仿真数据,后者借助于真实数据生成更多逼真的仿真数据。国内许多公司以3DGS和世界模型为技术栈,生成大量仿真数据,但仿真数据天然存在真实性问题,真机泛化一直是个很大问题。
人类视频数据
人类视频数据是指通过采集人类在真实环境中完成各类任务的视频,从中提取动作特征、环境信息、任务逻辑等数据,用于训练具身机器人的动作模仿与任务决策模型。规模大、成本低、场景覆盖广,但也无法直接从中取得很好泛化效果,适合pre-train阶段。
从规模化角度来看,高质量和不同场景的数据越多,真实场景下效果将会越好。
从本体角度上来看,能够跨本体使用的数据,发挥空间更大,未来一定是本体形态百花齐放的时代。
从成本来看,低成本是保证规模化的必经之路。
成本低、易规模化和跨场景的方案
相比于其它三种技术路线,UMI数据路线在规模、跨本体、成本上都有较大优势。
首先通用性强,打破平台壁垒。传统具身数据采集往往与特定机器人本体绑定,不同类型的机器人数据格式不兼容。UMI通过标准化接口,实现了“无本体依赖”的数据采集,各类本体数据能通过UMI接口输出统一格式的感知数据、动作数据与交互反馈数据,极大提升了数据的复用价值。
其次,数据质量稳定,标注精度高。UMI接口内置了标准化的标注模块,能够在数据采集过程中同步完成环境信息、动作参数、任务结果等关键信息的精准标注,避免了后续人工标注带来的误差与高成本。同时,UMI数据基于真实物理交互场景采集,具备较高的真实性,能够有效提升模型在真实环境中的适配能力。
最后一个重要的是,采集效率高,成本可控。相较于传统的遥控真机数据,UMI数据通过标准化接口实现了数据的自动化采集与传输,无需人工进行复杂的操作与数据整理,显著提升了采集效率。同时,由于其“去耦合”特性,研究者无需为不同机器人平台单独开发数据采集系统,降低了前期投入成本。
★在UMI的基础上,又演变出“以人为中心”的数采技术路线,这一技术范式逐渐成为成本低、易规模化和跨场景的方案首选。
“以人为中心”的便携式设备(特别是穿戴式设备)允许在真实工作或者生活场景中,连续无中断地记录人类完成整套复杂任务的过程,这产生了包含识别、推理、抓取、操作等多种子任务的“连贯行为链”数据。除此之外,便携式设备可以直接采集海量、多样化的人类日常生活或者工作场景中的操作数据。
“以人为中心”产业玩家格局初现
随着“以人为中心”数据范式逐渐成为主流,行业内也出现了百花齐放的态势,相关玩家主要分为2类。其中具有自家机器人本体产品+数据采集终端产品的主要有鹿明和它石,除此之外,鹿明也对外提供数据服务;第二类则是简智和数元时代,这类公司更聚焦在数据领域,主要提供多模态数采终端和一站式数据服务。
可能是做媒体的缘故,喜欢习惯性地看下创始人团队,前面和大家分享过它石的团队介绍,这里不再多说。另外3家中,其中鹿明是学术派+机器人背景,简智为Momenta(MMT)智驾背景,数元时代则是地平线和鉴智机器人智驾背景。
★有意思的是,MMT和地平线近1年来已经有多位高管和技术核心人员参与具身领域的创业,做出了还不错的成绩,并逐步出现了类似智驾行业的生态圈。
四家公司在便携式数采终端领域均推出自己的产品,大概有以下几种:
1)鹿明机器人
鹿明近期发布了FastUMI Pro多模态无本体数据采集软硬件系统,该系统采用“无机器人本体”的轻量化手持式夹爪方案,整体重量仅600g,负载能力达2kg,在便携性、稳定性和连续作业能力上表现优异,支持在各类场景中灵活、高效地完成数据采集。据悉,鹿明也提供数据服务,已经在搭建3个数采厂。

2)简智
简智作为一家提供数据采集终端+数据服务等公司,发布了Gen DAS数据采集设备。轻量化、无线化、便携让采集泛化能力大幅度提升。

据悉,目前具身智能数据产线已经完成建设,通过走进数千个家庭模式,批量制造高质量数据。
3)它石智航
近日,它石发布了一套轻便、模态齐全、可穿戴的具身数据采集系统 SenseHub,让数据采集自然融入真实的生产与生活场景。这套系统将视觉、触觉与手部动作数据深度融合,在不改变人类操作方式、不额外搭建采集环境的前提下,持续记录真实、高质量的操作行为。

4)数元时代
数元近期推出了MeData Link 系列产品,一套完整覆盖从基础操作到全身协同的、以人为中心的多模态数据采集终端,其中MeData Link手持式夹爪数采终端产品,无需定位基站,无线,轻量便携设计;支持开放式全场景以及单双手采集模式切换;

除此之外,数元还搭建了规模化真实场景数据采集产线。通过在家庭、酒店真实场景采用众包采集的方式,将实现日产千小时以上的高质量以人为中心真实场景操作数据;据悉,数元同步也在搭建超8000平方的以人为中心数采厂,用于突破数据采集规模;
规模化高质量的具身数据,将会是每家公司的壁垒
重数据和本体,是具身的现状。在本体质量和稳定性提升的同时,谁掌握了更多的数据,就有更多的市场话语权。对于一家具身公司来说,能低成本构建丰富的数据库至关重要。
所谓,“熬过寒冬,迎来行业的爆发突破”。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)