在竞争日趋白热化的具身智能领域,各大企业纷纷聚焦于有限的本体市场。本体出货量的高低,不仅决定了自身数据的积累规模,更从根本上框定了基于该本体开发的算法性能上限——用户基数越大,本体在真实场景中的综合表现往往就越强,形成一种近乎“马太效应”的商业闭环。

原文链接:具身基座模型的曙光初现,全球最强跨本体VLA来啦!

然而,这一看似稳固的行业逻辑,正被一款名为 Being‑H0.5 的模型悄然打破。通过整合当前全球几乎所有主流机器人构型的数据,该模型在视觉‑语言‑动作(VLA)任务中展现出惊人的跨本体泛化能力——无论硬件形态如何差异,模型皆能快速适应、稳定执行。

项目链接:https://research.beingbeyond.com/being-h05

在长达40多页的技术报告中,来自 BeingBeyond 的研究团队主要完成了以下关键突破:

构建全球规模最大的训练数据集 UniHand2.0

该数据集涵盖 超过 14,000 小时 的机器人操作数据与 16,000 小时 的人类视频数据,总训练 token 数突破 4000亿,规模达到 Qwen2.5‑VL 的十分之一。这是全球首次在机器人领域进行如此大规模、跨本体的数据整合尝试。

与以往仅基于“轮式底盘 + 双臂夹爪”范式的研究(如 π 系列工作)不同,UniHand2.0 首次实现了跨本体的大规模数据融合,汇集了 超过 30 种 不同硬件构型的多样化数据。在 Being‑H0.5 之前,尚未有研究尝试将如此多异构本体数据统一用于训练——其核心挑战在于,不同机器人的状态空间与动作空间差异巨大,直接混合训练极易引发“数据冲突”,导致模型难以收敛或泛化。

为解决上述难题,BeingBeyond 团队创新性地提出了 统一动作空间框架,将双足人形、轮式底盘、桌面机械臂、夹爪、灵巧手等形态各异的机器人,映射到同一特征表示空间中,从而有效支撑跨本体联合训练与知识迁移。

以人为中心的训练范式(Human‑Centric Learning)

除了统一动作空间,Being‑H0.5 更核心的技术突破在于 human‑centric learning。在上一代 H0 的基础上,团队将人类视频训练数据提升了 2 个数量级,通过 16000 小时的庞大体量,构建了全球最大的人类视频数据集。针对人类视频普遍缺乏高质量标注的痛点,团队还设计了一套名为 UniCraftor 的便携、可扩展、低成本的人类视频采集系统。

当前具身行业,无论是机器人设计、数据采集方案(如 UMI、传统遥操作),还是任务设计,本质上都在模仿人类,以人为中心。而人类本身,就可被视为所有下游机器人的“原型模板”。人类视频中蕴含着海量即兴意图,覆盖了下游场景可能出现的几乎所有任务类型。这类数据与轨迹高度一致的真机数据形成鲜明对比,能有效避免模型在预训练过程中坍缩到单一的低维流形,从而真正实现跨本体泛化。

此外,人类视频本身蕴含丰富的物理与空间先验信息,这赋予了模型仅靠实验室数据所不具备的场景泛化能力。

模型结构

如上所示,Being-H0.5是一个专门的专家混合模型,它解耦了多模态理解(理解专家)与动作生成(动作专家)功能,同时通过共享的注意力机制保持两者的耦合。一个统一的状态-动作空间通过将人手动作和多样化的机器人控制映射到语义对齐的槽位,支持跨实体形态的预训练。预训练利用了UniHand-2.0,将多模态数据序列化为统一的问答式格式,并将每种模态分配给相应的专家分支。最后,一个"混合流"设计通过结合共享的基础层与用于特定实体形态/任务动态的路由式专用专家,实现了动作生成能力的扩展。

真机验证与基准测试

为验证 Being‑H0.5 的跨本体能力,研究团队在 PND、G1、Franka 等不同构型的人形机器人、机械臂本体上进行了大量真机实验。在海量、多源数据的加持下,模型展现出卓越的跨本体与复杂任务执行能力,甚至能够完成 “用按压喷壶浇花” 这类以往夹爪式机器人难以实现的操作。

为定量评估模型性能,团队在 LIBERO、RoboCasa 等广泛使用的评测基准上进行了测试。在仅依赖模仿学习与纯 RGB 视觉输入的条件下,模型平均取得了 98.9% 与 54% 的成功率,不仅超越了 π‑0.5、GR00T 等所有已知 VLA 模型,甚至优于部分借助强化学习与 3D 模态的方案,展现出强大的性能竞争力。

行业影响:打破数据壁垒,开启泛化新时代

Being‑H0.5 的出现,对国内外绝大多数具身公司而言无疑是一大利好。本体公司不再需要投入上亿成本自建数据采集中心、依靠自身本体数据构筑算法护城河。关于 “如何适配不同构型本体、获取高质量数据” 这一行业难题,BeingBeyond 团队给出了一个既简单又深刻的答案——因为人类本身,才是这个世界最大、最自然的数据来源。这正是 human‑centric learning 最根本的魅力所在。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐