对话智元机器人首席科学家罗剑岚|未来机器人在真实世界大规模部署将会面临哪些挑战?
当越来越多的机器人从实验室的受控环境走向工厂、家庭等开放复杂的真实世界,它们还能像在实验室里面一样“灵巧能干”,持续稳定执行各种“活儿”吗?具身智能独角兽Generalist AI在2025年11月推出Gen-0 ,引起业界震动。其充分利用了数据工厂,采集了 270000 小时的数据。根据官方发布的内容,其目前每周可以以10000 小时的速度继续采集。此次发布给了行业一个宝贵的insight:通过
当越来越多的机器人从实验室的受控环境走向工厂、家庭等开放复杂的真实世界,它们还能像在实验室里面一样“灵巧能干”,持续稳定执行各种“活儿”吗?
具身智能独角兽Generalist AI在2025年11月推出Gen-0 ,引起业界震动。其充分利用了数据工厂,采集了 270000 小时的数据。根据官方发布的内容,其目前每周可以以10000 小时的速度继续采集。此次发布给了行业一个宝贵的insight:通过大规模真实机器人数据和持续训练,可以推动具身模型向更通用的方向演化。但同时也暴露了行业的一个“瓶颈”:对于数据的需求远超我们的想象。这便给真实世界的部署提出了更大的难题:受困于更高的任务专精度要求,以及离线数据采集方式的边际效益递减。
那么,是否有这样一套策略,可以支持机器人群“随到随学”,随时调整?即真实部署环境中,把数据回流、模型后训练和策略更新,组织成一个长期可运行的工程系统,让更多的机器人在真实环境中不会因为“没见过,没练过”而宕机。
2026年1月初,智元具身研究中心率先给出系统性解决方案——SOP(Scalable Online Post-training)在线后训练系统,这一创新架构首次在物理世界的VLA后训练中,将在线学习、分布式架构与多任务通才性深度融合,打破了传统离线单机训练的局限,让机器人集群得以在真实场景中持续进化,实现个体经验的群体高效复用,真正将“规模”转化为“智能”,为通用机器人的落地探索开辟了全新路径。

有了这套系统,意味着机器人在进入更多元的真实场景后,不单单只靠先前实验室习得的“经验”,而是能在真实场景中,根据与环境的交互,即时校准和调整自身行为,初步摆脱强“定制化出厂”,逐步迈向“因地制宜”。
以下内容来自1月7日智元机器人SOP方案首发现场对罗剑岚博士的采访。
一、SOP的系统架构是怎么样的?
Q:我理解SOP采用Actor-Learner(执行器-学习器)的架构,是不是一个机器人犯错,所有机器人能立马学会避免这个错误?
罗剑岚:直觉上这样,直觉上这是非常接近的。如果更严谨地讲,它不是立刻变聪明,而是这个错误被记下来,传到共享的池子里,被记录,然后回传,进入训练闭环。在云端会跑相应的算法去处理这些错误,再下发给所有机器人,我们现在几分钟之内会更新一次。
Q:就是云端相当于是后台的技术人员在帮机器人解决这些问题,而不是机器人一起想,怎么解决这个问题?
罗剑岚:云端是个异步式的架构,云端在跑算法,机器人的数据回传到云端,云端在跑后训练算法,比如强化学习的算法等。它会自动用算法去处理这些错误,不是用人处理这些错误。
Q:请您用通俗易懂的语言解释一下,咱们从单机离线到分布式在线的系统化跨越,SOP系统在其中起到了什么作用?对于机器人掌握的叠衣服柔性物体精细化操作的问题,解决了哪些过去难以突破的技术瓶颈?
罗剑岚:我先回答第二个问题,它的核心技术瓶颈,具体来说是三点。SOP是一个系统、是一个框架,在系统层面把执行和学习真正耦合起来。具体来讲,核心技术瓶颈是三点。一是非常低延迟的在线反馈,机器人犯错以后,需要纠正并尽快反映到模型里。二是分布式数据的多样性和一致性。多机器人并行采集的时候,会经历各种各样不同的场景,要稳定获取高质量的数据经验。第三点是最重要的一点,SOP保证了它的通用性不退化。叠衣服、叠纸盒子、商超里500多种物体补货、上货,成功率很高,用的都是一个模型。而之前的工作,用一个通用 VLA(视觉-语言-动作)模型,在单个场景里微调,overfit(过拟合)到那一个场景上,机器人就会把之前的任务给忘掉。而我们这个不会,我们这是一个通用且泛化的模型,可以讲它是一个通用的专才。他提升某一个任务表现的时候,不会牺牲掉整体模型的泛化能力。
Q:SOP是分钟级,甚至秒级回流。您认为未来部署过程中,算力、带宽和部署成本,会不会成为规模化落地的瓶颈制约呢?
罗剑岚:这是个好问题。这也是我们做SOP第一天就考虑的问题,就是要有一套非常鲁棒、健壮、可扩展的软件工程infra。这套系统的软件工程非常鲁棒,往里面加一台机器人、十台机器人、一百台机器人,理论上是没有区别的。
Q:它怎么做到这么健壮的?
罗剑岚:这是底层的数据结构和底层的replay buffer(经验回放池)在软件工程上的实践。你问的问题是在基础设施方面,还有没有挑战?是有的。有的机器人初创公司在做海底光缆,是超大带宽的数据回流。这些我们也在看,就像刚刚回答另一位记者的提问,需要软件算法创新,也需要社会的基础设施可以部署机器人。就像刚有因特网时,网速只有几KB,而现在网速很快。
二、当前众多研究人员谈“跨本体”而色变,SOP会是他们的“福音”吗?
Q:我问一下SOP系统会不会受到机器人内部本体硬件差别的影响呢?
罗剑岚:SOP的设计核心正是为了解决这一痛点。它支持多机器人、多本体的协同训练,通过对数十台机器人的数据进行任务均衡采样,能够有效隔离单一硬件的干扰,从而提取出跨本体的“最大公约数”。这种机制保证了模型不会被某类特定硬件“带偏”。简单来说,如果集群中有100台机器人,即便其中一台噪声很大,在其余99台机器人的数据对冲下,该噪声的影响也可以忽略不计。
Q:意思就是说机器人集群里有几种不同的机器人,SOP系统也可以正常运行?
罗剑岚:我们现在已经有这个结果了它是可以跨本体的,但是在论文里我们没有把这个结果放出来。我们用了自家机器人,也用了别家的好几款机器人,最后的结果是可以跨本体泛化,我们下一个版本会放出来。总体而言是三点。接口表征标准化,多机器人在云端统一并行,在必要的时候,也会引入轻量级的个体识别。这个问题是SOP考虑的点。
三、SOP新机制上线会对当下数采模式产生哪些影响?
Q:罗博您好,SOP的新机制上线后,原本的数采中心您觉得还有存在的必要吗?因为现在是各个机器人联网学习的模式,那数采中心的意义在哪呢?
罗剑岚:SOP是一个在线后训练框架,它需要有一个预训练模型,数采中心的离线数据可以给它提供基础能力。有了SOP之后,在线部署能够大量造成数据回流去训练新的模型。随着部署量越来越多,积累的数据会越来越多,后面的数据大头来自真实世界部署产生的数据。我认为现在离线的数据中心是主力,后面会变成冷启动,就像汽车的发电机把发动机打着的那一下,这还是很重要。因为我们不可能直接去部署一个零成功率的模型在真实世界,它要具备一定的基础能力,才能通过SOP这套方法把它给拉起来。
Q:我的理解未来数采中心承担的是出厂设置的角色是吗?
罗剑岚:可以这么讲,再补充一下。预训练模型的能力等于出厂设置的能力。随着部署机器人的数量越来越多,数采中心提供的不是预训练模型的能力。预训练数据的来源,一开始大部分是数采中心,因为现在还没有大规模部署到真实世界的阶段。随着真实世界部署的机器数量越来越多,真实场景回流的数据也会变成训练预训练的数据,预训练模型会变得越来越强。
Q:刚刚提到数采中心,我们在边做边学、数据回流很通畅的话,素材中心未来的重要性是不是会不断变低呢?
罗剑岚:这取决于怎么定义数采中心,刚刚讲的是现代数采中心的形态,在一个工厂里,有一堆机器人摆上桌,开始采集数据,对于这种形式,技术能力会慢慢进化。你也可以说在真实世界部署2万个机器人,这也是数采中心。就是真实世界是我们最大的数采厂,所以我认为数采厂的定义会不断进化。
Q:就是专门做一个模拟真实操作的素材厂,后面会变少?
罗剑岚:是的,我认为会逐渐往真实世界去收敛。
四、SOP新机制会加速具身 Scaling Law 的到来吗?
Q:对于SOP系统有什么规划呢?比如当机器人的数量达到多大的量级,我们可以通过SOP实现什么样的程度呢?智元有这种规划吗?
罗剑岚:我们2026年有一个很大的重点是在真实世界部署通用机器人,目前业界还没有人做。你说多大的数量?我们论文里是几十台机器人。今年我们会部署几个数量级以上的机器人,真正找到机器人真实场景部署和真实场景落地的Scaling law。
Q:你们对今年的量级有预估吗?
罗剑岚:会比现在大几个数量级。
Q:你们的技术博客提到多机采集可以阻止模型过拟合单机特定特征。那么多机特征会不会反过来影响到模型的学习呢?因为有不同的采集特征,反而影响到数据的可用性或模型的学习呢?
罗剑岚:这是好问题。我部分同意你的观点,我认为现在的AI或Learning(学习算法)给我们的启示是scale really matters(规模至关重要),就是数据的多样性和数据的规模,至少在现阶段,远比你在 narrow setting(特定场景设置)去 specifically create(专门创建)的数据会重要得多。回答这个问题,在多机和单机上,本质问题是单一场景还是多个广泛场景,我认为后者的数据越来越多,对模型的鲁棒性和健康性有更大的帮助。
Q:SOP的提出是否意味着国内具身公司,尤其是以智元为代表的,具备对标Generalist Gen0相关工作的可能?
罗剑岚:Gen-0 的核心价值在于证明了一件事:通过大规模真实机器人数据和持续训练,可以推动具身模型向更通用的方向演化。而 SOP 关注的是另一个同样关键的问题——如何在真实部署环境中,把数据回流、模型后训练和策略更新,组织成一个长期可运行的工程系统。
从这个角度看,SOP 并不是简单“对标某一篇工作”,而是让国内具身公司具备了参与这一代通用具身智能竞争的结构性条件。最终能走多远,取决于持续部署规模、真实世界数据质量,以及系统能否在多年尺度上稳定演化。
五、如果SOP在各种场景下大规模推广了,哪些新的商业模式会先跑出来?
Q:这种在线后训练的架构,如果逐渐成熟,未来交付给客户的机器人,交付的时候是已经成熟的产品,还是交付的时候,不是服务的结束,而是会服务一到两年,通过数据继续提升机器人的性能表现。你认为哪种是最可能的商业模式呢?
罗剑岚:就跟自动驾驶一样,你买车回来以后,它会不断更新版本一样,模型会变得越来越好。
Q:但是它跟车不一样,因为现在还是辅助驾驶。但是到了工厂里,你的表现是70分,我不可能满意,不可能等你一年以后再提升到100分。
罗剑岚:我刚刚讲了,对于不同场景的适配梯度不一样,工厂肯定不会先让它跑一年。工厂是有一个成功率高的预训练模型,因为它的场景相对结构化和固定。然后短时间内,我们微调时间很短,就可以上线。上线以后,持续学习的机制是在的,因为上线之后,就像你用自动化设备,过一段时间也得调整一次去适应新的情况。当然这种情况,在工厂里的频率比较低。如果是商超或超市,每天人来人往,每天的情况不一样,这个持续学习就是一个必要的措施。但即便是如此,也不代表我每分每秒都在学习。特斯拉也不是每天在发版,而是几个月发一次。可以通过scheduling(排期/调度),做到用户没什么感知,但真实的性能是在提升。
Q:我理解SOP是越用越聪明,一旦部署到机器人上,机器人就自动进化的特性。这种特性是否会改变机器人的销售或服务模式,未来从出售机器人产品,出售持续进化的服务能力呢?
罗剑岚:我认为它会从卖硬件一次性交付,到软硬件一体的持续服务。用车举例,现在对自动驾驶收软件费也接受了,也愿意买,因为它确实带来了很好的体验,可能性也在持续提升。当然今后还有一段路要走,比如版本管理、安全措施、隐私合规等。
Q:从行业应用角度来看,这套SOP流程已经在很多任务中得到有效验证,在工程制造、家庭服务或商用场景中,这套SOP适配难度有什么差异,或者说现阶段最容易落地的商业价值的场景落地是什么?
罗剑岚:它难在不同的地方。工业制造对泛化性的要求会少,我们现在也在看一些工业制造的场景,但是对整体的成功率和节拍、鲁棒性要求非常高,否则会影响到线的产能。家庭服务和商超,对成功率和性能的要求,没有工业场景那么苛刻。但它是一个更加开放的场景,长尾任务更多,但它的任务风险可控。我认为SOP在不同场景的适配难度存在明显梯度,工业场景里的流程稳定、边界清晰,责任、安全、工序划分得很明确。我们把SOP引入到在线系统里面,机器人在这种可控的环境里,可以持续运行,不断纠正失败模式,能快速把成功率和节拍提升到可规模化的上线水平。对于家庭场景,实事求是地说,我不指望SOP能立马覆盖一个家庭。我认为这是一个逐步的过程。就好像你有了预训练模型,预训练模型出厂就不可能是最优秀的模型一样。有了预训练模型再加上SOP,以逐步扩展任务能力的方式去落地。这是我认为这是未来有希望进入家庭的一种方式,通过部署更多的机器人,造成更多的数据回流,训练更好的模型载体,部署更多的机器人。医疗护理的要求最高,像合规、安全、可解释性的要求都很强。在医疗护理的落地,所以会先从辅助性或非关键决策的环境开始。我认为现阶段最容易落地且明确产生商业价值的场景是工业制造和部分商业服务场景。在工业方面,我们已经有很多案例了。这些商业场景,比如商超和部分家庭,我们今年都会慢慢铺开。
六、智元提出这套SOP的初衷?未来如何进一步在真实世界落地呢?智元会有哪些布局?
Q:后续在工业和商业各种场景下,如何实现具体的落地呢?
罗剑岚:我刚才已经回答了这个问题,我再简单讲一下。工业场景短期之内是最有效的场景,它有稳定的工序和生产流程,用在线后训练提升成功率和节拍,确保机器人能长时间地可靠运行。商业场景既要保持高性能,也不能丢掉泛化能力,就要关注它在不同场景、门店等不同环境下的适应能力,通过共享的经验。因为机器人的经验数据是共享的,来不断减少人工的介入。不同的场景的差异,SOP是个框架,框架是统一的,在任务的定义、监督上有一些小的适配差别。我们做这个事的初衷是希望有一个通用、可拓展的框架,不对场景做区分,只是少量适配,就是各种场景一套系统全部拉通。整体原则是先在可控、可规模化的场景里把闭环跑稳,然后再逐步拓展到更复杂的真实世界。
Q:智元接下来是否会考虑向具身智能行业开放SOP框架,或进行技术上的合作呢?在具身智能的生态上,智元有什么布局吗?
罗剑岚:首先SOP不是一个封闭系统,而是一种新的持续学习、在线学习、协同进化的方式。智元从成立之初就坚持走生态开放的路线。我们做了很多开源开放的硬件,很多东西是开源的。SOP这个工作当然也是希望跟更多的厂商一起共建。在生态布局上,我们愿意同生态伙伴一起做场景共建,要部署真实机器人,现在有些场景不是为机器人设计的。所以需要我们共同定义这个场景的任务规范、流程、监督信号、边界等,把SOP的闭环真正接入到业务流程里。在这个层面我们很开放和大家一起去共建,因为这不是某一家公司的事。我们会开放一些SOP的关键模块和接口。因为SOP是个框架,任意的后训练算法和模型都可以接进来。从长远来讲,我们希望构建一个开放的机器人在线学习生态。不同的机器人本体都可以接入,让数据共享上传到云端一个大脑,数据回传回来,不断进化,给大家使用。如果我们能找到行业伙伴,在各自擅长的场景中发挥优势,我们是可以共同推动整个机器人行业从静态能力到动态进化的跨越。
Q:2026年对于SOP落地应用的目标是什么,有没有可量化的数据进行分享?
罗剑岚:2026年我们考虑在真实世界大规模部署,SOP是支撑这件事的基石。工业、商业和家庭,我们都会做出尝试。刚刚有记者问我时间表,我也给出了大概的时间表。我们还在做相关工作,有进展的话,会第一时间跟外部分享。
Q:您提到2026年会有一个量级的提升,我们是第5000台下线。您讲的提升,我们布局在工厂、家庭、商业,我们所有场景都会做SOP,那这个量级的提升是针对5000台的量级提升吗?
罗剑岚:我们定义部署态的作业智能,在全球范围内还是比较少,更多还是秀 demo 的状态。我个人的一个梦想是希望今年在上海的罗森便利店和上海超市看到机器人在真正干活,它是一个是部署态,这是一个很大的规模。你刚刚讲5000台的数字,这是我们今年整体的出货量,我们明年出货量会更多。这也是我们做这件事的优势,就是本体量很大,部署量很大,数据量也会很大。
Q:所以我们的量级提升,是基于5000台,还是基于作业环境里的机器数量?
罗剑岚:我们的出货量这是多个口径的统计数据,我讲的是真正部署态的作业智能,不是demo(演示)态,在今年会有几个数量级的提升。
Q:是会覆盖多个场景都会有,比如罗森、商超,是吗?
罗剑岚:是的,既有危险场景去提升生产力,也会在大家看得见、摸得着的地方,让机器人走进大家的生活。
Q:我听下来是否可以这样理解,SOP是机器人向真实世界迈入的第一小步,是吗?
罗剑岚:是的,这是关键的第一步。
Q:讲下场景的问题,你刚才讲,要面向商超和便利店场景,这是后面的几步吗?
罗剑岚:你是问接下来的第二步是什么吗?
Q:是的。
罗剑岚:第一步解决的是长期被忽略的问题,就是如何把真实部署中的经验,稳定地低延迟地转化为模型改进,并且在多机器人多任务下可规模化运行。如果这一步做不稳的话,后面所有的探索都是空谈。所以我们扎扎实实先做好一个系统,把它跑稳。在此基础上,第二步的核心方向是三点。一是,在更开放场景的扩展,在安全、可控的前提下。因为现在更多是半结构化场景。可管理的环境,逐步走向更复杂、更开放的真实世界。二是,监督的进一步自动化,现在还有人类的干预,随着算法不断提升,会减少对人类干预的依赖,会引入更成功、更自动的建模算法。三是,持续学习能力的增强,不断在学习新任务新场景,同时避免遗忘已有的能力。我认为这是符合产业落地规律的选择,让在线学习真正可用可扩展的,逐步从封闭、半开放、开放,一步步去验证,一步步去部署、扩展、落地的节奏。
Q:你认为在SOP技术的赋能下,您预判距离真正看到人形机器人进入家庭,完成有价值的复杂工作,还需要跨过哪些障碍,你有没有一张时间表?
罗剑岚:我认为家庭场景的话,首先要数据隐私合规和数据回流,我们要弄清楚怎么做这件事。家庭场景的话,和人类的交互更友好,硬件要具备可靠性、安全。成本和供应链的成熟,因为家庭机器人太贵的话,大家也买不起。从时间来讲,工厂和商场各种半结构化场景更早成熟,家庭会慢一点。但它的路径是清晰的,如果我们能在工厂和商场验证这个闭环成立的话,就能进入其他场景。我在其他采访也一直这样讲,先从可控任务集开始,再慢慢扩大到开放、半开放、开放,最后真正进入千家万户。
Q:我问一个问题。2025年机器人界的关键词是VLA(视觉-语言-动作模型)和世界模型。罗博分享一下,现在业内对机器人研究2026年的共识,以及智元的看法。
罗剑岚:2026年机器人领域的共识,我不知道我能不能代表机器人领域,我只能讲讲自己的观察。我的观察是,大家认为通用性不再是主要瓶颈,当然通用性很重要,部署中的任务集熟练度和可靠性,才是决定机器人能否真正落地的关键。过去几年时间,大模型、VLA(视觉-语言-动作模型)、预训练有非常大的提升,机器人对多任务、多物体、多本体、多指令的泛化。一旦进入真实场景,这是大家都在做,但还没人真正做好的事。机器人能否稳定、高效、长时间完成具体任务,这是一个问号,这非常高度依赖真实世界的训练闭环。智元的判断2026年是机器人从会做很多事,但每个事做得不太好,走向把事情做好并落地的关键节点。这要求学习范式从静态离线训练升级为部署学习再部署的整套数据闭环系统,正是基于这个判断,我们提出SOP系统级解决方案。
从重构训练范式到重塑机器人生命周期,SOP的核心价值在于让部署不再是技术迭代的终点,而是更大规模智能学习的起点。它通过“多机并行采集-云端集中训练-参数即时回流”的闭环,既解决了真实世界部署中的稳定性与泛化性难题,又为行业搭建了开放协同的进化生态。随着SOP在工业制造、商业服务等场景的逐步落地,以及跨本体适配能力的持续完善,机器人将从“性能固定的标品”转变为“持续成长的生命体”。未来,在技术创新与生态共建的双重驱动下,SOP必将推动更多机器人走进生产生活的各个角落,让规模化、智能化的机器人应用成为现实,开启人机协同的全新篇章。
具身求职内推来啦
国内最大的具身智能全栈学习社区来啦!
推荐阅读
从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂
工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)
具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂
VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~
MuJoCo具身智能实战:从零基础到强化学习与Sim2Real
Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?
1v1 科研论文辅导来啦!
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)