今早pi发布了一个blog,倒不是pi0.7出来了,而是一个比较有意思的观点和案例(Weave等合作伙伴):机器人也需要api,因为构建整个“物理智能”技术栈难度太大。pi期望通用机器人基础模型能被任何人访问,这样不同场景的落地才会涌现。

链接:https://www.pi.website/blog/partner?v=1

原文链接:Physical Intelligence发了一篇博客,不是π0.7!而是想做机器人基础模型的api

以下是博客翻译:

想象一下,你有一个需要理解语言的应用程序创意。你不会从零开始训练基础模型并针对特定用例进行微调,也不会从头构建整个 AI 技术栈。相反,你只需调用现有基础模型的 API,应用程序的核心智能层便已就绪。现有的基础模型为任何开发者提供了一个现成的智能层,供其在此基础上进行构建。

然而,机器人领域目前尚未达到这种程度。

如果你想构建一个机器人系统来解决现实世界的问题,那些软件开发人员习以为常的现成模型和库并不存在。你需要自行实现控制器、构建数据流水线并训练自己的模型——本质上,在真正开始开发机器人应用之前,你必须先构建整个“物理智能”技术栈。其中许多组件不仅构建难度极大,实际上代表了重大的开放性研究难题。目前既没有广为人知的有效解决方案,更谈不上现成的 API。

为了让机器人应用像 AI 驱动的软件应用一样实用且普及,我们需要一个易于获取且可复用的现成“物理智能”层。通用机器人基础模型(如 p i 0 pi0 pi0 p i 0.5 pi0.5 pi0.5)提供了这样的层级,显著降低了构建实用机器人系统的成本和精力。一旦任何人都能访问强大的机器人基础模型,我们将看到机器人应用在社会各界(从家庭、医院到办公室、仓库和工厂)的蓬勃涌现。

我们与专注于机器人部署的公司合作,以验证我们的模型在真实环境中的表现,并通过多样化的任务和环境对其通用性进行压力测试。

Weave

本章节由我们的合作伙伴 Weave 团队撰写,分享了他们使用我们模型的实际经验。文中所有视频均源自 Weave 机器人在旧金山一家真实自助洗衣店的现场部署实录。
π0.6 folding laundry at Weave's customer site

Weave 致力于打造面向家庭的机器人。我们早期的商用版本已部署在旧金山湾区的多家企业中,执行的任务与我们为家庭场景聚焦的目标一致:折叠衣物。

折叠衣物是家庭机器人极具吸引力的首个应用场景。这项任务普遍存在、耗时漫长且需要高度专注。其工作量与家庭人口规模直接相关,使其成为家庭中反复出现的时间消耗点。

与此同时,折叠衣物长期以来被视为机器人操作领域最具挑战性的难题之一。折叠本身是一个长程任务(long-horizon task),即便是衣角稍有错位,也会影响最终的折叠质量。衣物具有可变形性且差异巨大,不同服装在尺寸、面料、颜色和形状上千差万别。
π0.6 folding laundry at Weave's customer site

然而,由于我们既在自助洗衣店也为家庭客户提供折叠服务,这意味着我们的机器人必须能够处理尽可能多的衣物种类。这不仅包括 T 恤,还涵盖长袖衫、短裤、长裤等,它们的尺寸和面料差异极大。

通过与 Physical Intelligence 合作,我们在模型性能上看到了多方面的提升:折叠质量更高、单件衣物折叠耗时更短,且远程专家为获得整洁的最终折叠效果所需的干预次数显著减少。我们希望在包括客户现场在内的多个地点,利用 Physical Intelligence 的模型进一步推动自主折叠性能的提升。

Ultra

本章节由我们的合作伙伴 Ultra 团队撰写,分享了他们使用我们模型的实际经验。文中所有视频均源自 Ultra 机器人在处理真实客户订单打包任务时的现场部署实录。
Continuous shot of π0.6 packaging orders at Ultra's customer site for a full shift at 96.4% autonomy

Ultra 致力于打造可无缝接入现有工位的工业 AI 机器人,使其在数小时内即可投入有价值的工作。目前,我们正通过部署在美国各地的创收机器人车队,自动化执行仓库中的关键任务,并正将部署规模扩展至数百个站点。我们的目标简单而明确:打造有史以来最高效、最易用的工业机器人。

我们的首个应用场景是电商订单打包。长期以来,这一任务被视为机器人无法自动化的难题。工作流程的巨大差异、多样化的物品类型、可变形的包装材料以及外部机械设备的介入,共同构成了一个“长尾”问题集。传统的自动化技术往往因过于僵化而难以应对这些实际问题。而视觉 - 语言 - 动作(VLA)模型提供了解决之道:它提供了一种随着数据规模扩大而性能不断提升的方案,无需耗费大量工程工时,同时也不会降低客户使用机器人的灵活性。

在与 Physical Intelligence 合作期间,我们在客户部署现场见证了自主性能的显著提升。随着每一代新模型的迭代,我们观察到智能水平、吞吐量和可靠性均实现了大幅跃升,且增长势头未见减缓。特别是在 p i 0.6 pi_{0.6} pi0.6 模型上,我们注意到周期时间和成功率均有明显改善,这些进步叠加起来,意味着为客户带来了更高的吞吐量,同时也减轻了我们远程干预团队的工作负担。

除了 p i 0.6 pi_{0.6} pi0.6 在周期时间和成功率方面带来的量化提升外,我们还注意到该模型在行为表现上取得了显著的质性改进。

更优的指令遵循能力: p i 0.6 pi_{0.6} pi0.6 更强的指令遵循能力在我们的应用场景中极具价值。通过将任务拆解为更小的子任务,我们能够支持更多样化的客户工作流组合,从而实现更广泛的自主运行。

对长尾问题更具信心:在边缘案例(edge cases)中, p i 0.6 pi_{0.6} pi0.6 能够采用更智能的策略进行恢复,并从更多样化的策略库中进行选择,以更高的确信度选定正确策略,从而推动任务走向成功。

这些模型运行于我们部署在真实客户仓库中的机器人上,每天都在打包真实的订单。当模型出现失误时,我们的人机协同干预系统会及时介入,以确保数千份订单的处理准确无误——与此同时,该系统还在持续生成新的数据,用于优化下一代模型的迭代。

pi团队的结尾

上述案例表明,我们研发的模型已能够应用于真实且富有价值的场景;我们的合作伙伴能够将自有硬件接入我们的模型,从而高效完成对其至关重要的任务。我们致力于让模型具备广泛的实用性和适用性,使机器人研究者能够像开发者调用基于 API 的大语言模型(LLM)一样,利用我们的模型驱动其自有应用。通过提供便捷的“物理智能层”访问途径,我们希望降低探索新型机器人应用、形态及使用场景的成本。目前,我们正与众多其他合作伙伴携手推进相关工作,期待在不久的将来与大家分享更多进展。如果您有意与我们合作,欢迎随时联系。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐