最近刷到不少机器人的视频——翻跟头、空翻、叠衣服、给你倒杯咖啡,手指灵活得能拧瓶盖。评论区一片「未来来了」。

差不多同一时间,工信部和国资委联合发了个文件,说今年要推动人形机器人从「实验室模式」切换到「工厂模式」——别老在恒温恒湿的测试场里表演了,去车间、仓库这些真实场景里干活,年底要在一批场景里完成验证、常态化上岗,形成万台级的落地能力。

听起来,机器人马上要大规模进厂打工了。

但你要真去工厂里看一眼,会发现故事和视频里很不一样。机器人到底会不会干活了?难在哪?我扒了一圈最新的进展,发现一件挺反直觉的事——

挡在机器人面前最难的那一关,既不在它的身体,也不在它的大脑。

我一层层说。

第一层:你以为难在身体?身体早就够用了

先把一个最常见的误会去掉。

很多人看机器人,盯的是它的身体——能不能翻跟头、手指够不够灵活、跑得快不快。好像身体越炫,机器人就越强。

但身体这块,其实这些年进步很快,早就不是最卡的地方了。灵巧手能拧瓶盖、双足能爬楼梯、力控能拿鸡蛋不捏碎——硬件能做的「动作」已经很多。

问题是,能做一个酷炫动作,和能干活,是两码事。

一个会空翻的机器人,未必能在产线上把一个零件稳稳地、重复一千次地装对位置。表演要的是一次惊艳,干活要的是次次都对。你让它叠一件衣服叠得很漂亮,换一件没见过的、皱巴巴的,它可能就傻了。

所以身体从来不是最难的地方。这两年真正发生质变的,是另一样东西——它的脑子。

第二层:真正变了的,是机器人的「脑子」

这是我最想跟你掰扯清楚的一层,因为机器人这两年「开始像样了」,根子全在这。

过去的机器人为什么笨?因为它的「看」和「动」是割裂的。摄像头看到的画面,要靠工程师写一大堆规则,一条条告诉它「看到这个就那样动」。场景一变,规则就失效,它立刻抓瞎。

这两年,机器人换上了一套全新的脑子。我把它拆成几个「器官」给你看。

第一个器官,叫 VLA。

全称是「视觉-语言-动作」模型。一句话:它把「看懂画面 + 听懂你的话 + 算出手脚该怎么动」这三件事,捏进了一个模型里。

这意味着机器人第一次能像人一样「看着情况随机应变」,而不是死记硬背规则。你跟它说「把桌上的红薯放进空气炸锅」,它能自己看、自己理解、自己规划动作——哪怕这个具体任务它从没被专门教过。

这不是吹。Google 的 Gemini Robotics、专做基础模型的 Physical Intelligence,今年都把 VLA 推得很远。Physical Intelligence 四月那个新模型,已经能把学过的零碎小技能组合起来,去干没教过的新活——上面那个「用空气炸锅烤红薯」,就是它的真实演示。英伟达则把这类模型开源了。国内也在发力,智元、蚂蚁都拿出了自己的 VLA,蚂蚁那个还是基于两万小时真实机器人数据训练、完全开源的。

这个方向有多热?今年顶级 AI 会议 ICLR 上,VLA 相关的投稿,一年涨了 18 倍。

第二个器官,是「大脑 + 小脑」的分工。

跟人一样:大脑负责慢慢想清楚「我要干啥、分几步」,小脑负责快速、下意识地把动作执行出来。机器人现在也这么分——一个慢系统做高层规划,一个快系统做高频的动作控制。想和做,各司其职。

第三个器官,是「世界模型」。

这个更前沿。简单说,就是让机器人在脑子里预演——它对物理世界怎么运动有个内在的理解,能先想象「我这么一推,杯子会不会倒」,再决定动不动手。国内的智元做了动作世界模型,智源研究院干脆把主攻方向从大语言模型转向了世界模型。

不过这条路还很早。智源的负责人说得很实在:世界模型现在还没到「GPT 时刻」,因为数据太缺了,这是最核心的卡点

最后是训练方式的变化,叫 Sim2Real。

机器人不可能在真实世界里试错亿万次——太贵、太慢、还危险。于是大家让它先在虚拟世界(仿真)里练,练成熟了再把「脑子」搬到真机上。便宜、安全、快。

这套「新脑子」凑齐,机器人才第一次真正「开始会干活」。看到这,你可能觉得:那不挺好,难关过了?

别急。

第三层:最难的一关,是最不起眼的两个字——可靠

这才是我真正想说的。

让机器人干成一次,现在真不难,Demo 满天飞。难的是让它连续、稳定、不出错地干几千上万个小时

举个全行业目前披露的最好成绩:宝马在美国的一家工厂,用了两台 Figure 公司的机器人,跑了一千二百多个小时,搬运了九万个钣金件,参与生产了三万辆车。这已经是大家能拿出来的最漂亮的数字了。

但你知道汽车厂验收一台设备的标准是什么吗?平均无故障运行要超过五万小时。最好的实测才一千多小时,中间差着几十倍。

业内最清醒的人把话说透了:客户根本不关心你 Demo 多惊艳,他们问的是——能不能在我厂里连续跑三个月、六个月?能不能真的降本?能不能让我愿意再买一批?而到目前为止,没有一家公司,完整通过了这个考验。

所以这个行业的分水岭,已经很清楚了:一边是展会上不断翻新的「秀肌肉」——叠衣服、倒咖啡、翻跟头;另一边,是产线上闷头干了几千小时的「干活型」。问题已经从「能不能做到」,变成了「做得好不好、能干多久」。

会一次很性感。次次都对、永不掉链子,才值钱。而这一关,恰恰是最朴素、最不性感的——可靠。

这波,中国站在哪

说回我们自己。这一轮,中国是在第一梯队的,而且强得有点不一样——不只是拼单个机器人多能打,是在拼整套「让机器人学会干活」的基础设施。

开源的 VLA 模型、开源的仿真训练平台、将近三十个面向真实场景的训练场,还有一批真在工厂里跑的案例——比如有的厂子,机器人搬运工位从一个扩到四个,能搬的物料从四种增到二十多种,至今没出过一次物料倾倒。这种「产业链全 + 落地场景多 + 真实数据攒得快」的打法,是中国的优势。

卡点也很实在,跟全世界一样:数据还是太缺,可靠性这道坎还没人迈过去。优势能不能转化成实打实的领先,就看谁先把「连续稳定干活」这件事做扎实。

那普通人该怎么看这波

落到你身上,几句实在话。

别被翻跟头的视频带节奏。 判断一个机器人到底行不行,就问三个问题:它在哪干活、干了多久、出过几次错。能回答这三个的,才是真的;只会发表演视频的,先放一放。

进家还早。 机器人上岗有个清晰的路径——先干「危险、肮脏、枯燥」这三类人不爱干的活(工厂、仓库),再到更广的工业和商业服务,最后才轮到进家庭。别指望明年家里就有个机器人保姆。

如果你想入局,机会窗口已经不在「再做一个炫酷 Demo」了——那条路太挤、也不值钱。真正有价值的,是最不性感的那些事:可靠性工程(让它连续跑、故障率低、能跟工厂系统打通)、真实作业数据的积累、某个具体场景的闭环。谁把这些苦活干扎实,谁才接得住接下来的万台级订单。

最后

机器人这件事,最吸引眼球的是身体,最被追捧的是大脑。但真正卡住所有人的,是最朴素的两个字:可靠。

会翻跟头的机器人,已经很多了。能连续干满一个班、不出错、还让客户愿意再买一批的,还几乎没有。

谁先迈过「连续稳定干活」这道坎,谁才真正把机器人,从一个表演者,变成一个劳动力。

而 2026 年,很可能就是这道坎被迈过去的开始。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐