机器人最难的一关，不在大脑也不在身体

乔氪智造

17人浏览 · 2026-06-17 13:11:20

乔氪智造 · 2026-06-17 13:11:20 发布

最近刷到不少机器人的视频——翻跟头、空翻、叠衣服、给你倒杯咖啡，手指灵活得能拧瓶盖。评论区一片「未来来了」。

差不多同一时间，工信部和国资委联合发了个文件，说今年要推动人形机器人从「实验室模式」切换到「工厂模式」——别老在恒温恒湿的测试场里表演了，去车间、仓库这些真实场景里干活，年底要在一批场景里完成验证、常态化上岗，形成万台级的落地能力。

听起来，机器人马上要大规模进厂打工了。

但你要真去工厂里看一眼，会发现故事和视频里很不一样。机器人到底会不会干活了？难在哪？我扒了一圈最新的进展，发现一件挺反直觉的事——

挡在机器人面前最难的那一关，既不在它的身体，也不在它的大脑。

我一层层说。

第一层：你以为难在身体？身体早就够用了

先把一个最常见的误会去掉。

很多人看机器人，盯的是它的身体——能不能翻跟头、手指够不够灵活、跑得快不快。好像身体越炫，机器人就越强。

但身体这块，其实这些年进步很快，早就不是最卡的地方了。灵巧手能拧瓶盖、双足能爬楼梯、力控能拿鸡蛋不捏碎——硬件能做的「动作」已经很多。

问题是，能做一个酷炫动作，和能干活，是两码事。

一个会空翻的机器人，未必能在产线上把一个零件稳稳地、重复一千次地装对位置。表演要的是一次惊艳，干活要的是次次都对。你让它叠一件衣服叠得很漂亮，换一件没见过的、皱巴巴的，它可能就傻了。

所以身体从来不是最难的地方。这两年真正发生质变的，是另一样东西——它的脑子。

第二层：真正变了的，是机器人的「脑子」

这是我最想跟你掰扯清楚的一层，因为机器人这两年「开始像样了」，根子全在这。

过去的机器人为什么笨？因为它的「看」和「动」是割裂的。摄像头看到的画面，要靠工程师写一大堆规则，一条条告诉它「看到这个就那样动」。场景一变，规则就失效，它立刻抓瞎。

这两年，机器人换上了一套全新的脑子。我把它拆成几个「器官」给你看。

第一个器官，叫 VLA。

全称是「视觉-语言-动作」模型。一句话：它把「看懂画面 + 听懂你的话 + 算出手脚该怎么动」这三件事，捏进了一个模型里。

这意味着机器人第一次能像人一样「看着情况随机应变」，而不是死记硬背规则。你跟它说「把桌上的红薯放进空气炸锅」，它能自己看、自己理解、自己规划动作——哪怕这个具体任务它从没被专门教过。

这不是吹。Google 的 Gemini Robotics、专做基础模型的 Physical Intelligence，今年都把 VLA 推得很远。Physical Intelligence 四月那个新模型，已经能把学过的零碎小技能组合起来，去干没教过的新活——上面那个「用空气炸锅烤红薯」，就是它的真实演示。英伟达则把这类模型开源了。国内也在发力，智元、蚂蚁都拿出了自己的 VLA，蚂蚁那个还是基于两万小时真实机器人数据训练、完全开源的。

这个方向有多热？今年顶级 AI 会议 ICLR 上，VLA 相关的投稿，一年涨了 18 倍。

第二个器官，是「大脑 + 小脑」的分工。

跟人一样：大脑负责慢慢想清楚「我要干啥、分几步」，小脑负责快速、下意识地把动作执行出来。机器人现在也这么分——一个慢系统做高层规划，一个快系统做高频的动作控制。想和做，各司其职。

第三个器官，是「世界模型」。

这个更前沿。简单说，就是让机器人在脑子里预演——它对物理世界怎么运动有个内在的理解，能先想象「我这么一推，杯子会不会倒」，再决定动不动手。国内的智元做了动作世界模型，智源研究院干脆把主攻方向从大语言模型转向了世界模型。

不过这条路还很早。智源的负责人说得很实在：世界模型现在还没到「GPT 时刻」，因为数据太缺了，这是最核心的卡点。

最后是训练方式的变化，叫 Sim2Real。

机器人不可能在真实世界里试错亿万次——太贵、太慢、还危险。于是大家让它先在虚拟世界（仿真）里练，练成熟了再把「脑子」搬到真机上。便宜、安全、快。

这套「新脑子」凑齐，机器人才第一次真正「开始会干活」。看到这，你可能觉得：那不挺好，难关过了？

别急。

第三层：最难的一关，是最不起眼的两个字——可靠

这才是我真正想说的。

让机器人干成一次，现在真不难，Demo 满天飞。难的是让它连续、稳定、不出错地干几千上万个小时。

举个全行业目前披露的最好成绩：宝马在美国的一家工厂，用了两台 Figure 公司的机器人，跑了一千二百多个小时，搬运了九万个钣金件，参与生产了三万辆车。这已经是大家能拿出来的最漂亮的数字了。

但你知道汽车厂验收一台设备的标准是什么吗？平均无故障运行要超过五万小时。最好的实测才一千多小时，中间差着几十倍。

业内最清醒的人把话说透了：客户根本不关心你 Demo 多惊艳，他们问的是——能不能在我厂里连续跑三个月、六个月？能不能真的降本？能不能让我愿意再买一批？而到目前为止，没有一家公司，完整通过了这个考验。

所以这个行业的分水岭，已经很清楚了：一边是展会上不断翻新的「秀肌肉」——叠衣服、倒咖啡、翻跟头；另一边，是产线上闷头干了几千小时的「干活型」。问题已经从「能不能做到」，变成了「做得好不好、能干多久」。

会一次很性感。次次都对、永不掉链子，才值钱。而这一关，恰恰是最朴素、最不性感的——可靠。

这波，中国站在哪

说回我们自己。这一轮，中国是在第一梯队的，而且强得有点不一样——不只是拼单个机器人多能打，是在拼整套「让机器人学会干活」的基础设施。

开源的 VLA 模型、开源的仿真训练平台、将近三十个面向真实场景的训练场，还有一批真在工厂里跑的案例——比如有的厂子，机器人搬运工位从一个扩到四个，能搬的物料从四种增到二十多种，至今没出过一次物料倾倒。这种「产业链全 + 落地场景多 + 真实数据攒得快」的打法，是中国的优势。

卡点也很实在，跟全世界一样：数据还是太缺，可靠性这道坎还没人迈过去。优势能不能转化成实打实的领先，就看谁先把「连续稳定干活」这件事做扎实。

那普通人该怎么看这波

落到你身上，几句实在话。

别被翻跟头的视频带节奏。 判断一个机器人到底行不行，就问三个问题：它在哪干活、干了多久、出过几次错。能回答这三个的，才是真的；只会发表演视频的，先放一放。

进家还早。 机器人上岗有个清晰的路径——先干「危险、肮脏、枯燥」这三类人不爱干的活（工厂、仓库），再到更广的工业和商业服务，最后才轮到进家庭。别指望明年家里就有个机器人保姆。

如果你想入局，机会窗口已经不在「再做一个炫酷 Demo」了——那条路太挤、也不值钱。真正有价值的，是最不性感的那些事：可靠性工程（让它连续跑、故障率低、能跟工厂系统打通）、真实作业数据的积累、某个具体场景的闭环。谁把这些苦活干扎实，谁才接得住接下来的万台级订单。

最后

机器人这件事，最吸引眼球的是身体，最被追捧的是大脑。但真正卡住所有人的，是最朴素的两个字：可靠。

会翻跟头的机器人，已经很多了。能连续干满一个班、不出错、还让客户愿意再买一批的，还几乎没有。

谁先迈过「连续稳定干活」这道坎，谁才真正把机器人，从一个表演者，变成一个劳动力。

而 2026 年，很可能就是这道坎被迈过去的开始。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

飞书内部智能助理搭建教程 OpenClaw 本地 Agent 集成方案

DAMO开发者矩阵

非标分辨率采集老失败？从原理到实操，一篇文案给你彻底讲明白

DAMO开发者矩阵

光模块高良率检测设备怎么选供应商与选型指南

光模块工厂的高良率不仅取决于装配工艺的精度，更取决于检测环节的可靠性。取放机器人的定位稳定性、通信协议的兼容性、换产配置的效率和设备的长期运行表现，都会直接影响检测结果的准确性和产线的综合良率。选择检测设备供应商时，需要将检测仪器和承载检测操作的自动化设备作为一个整体来评估，而不是分开采购、分别验证。艾利特机器人是AI产业链智能操作机器人企业，也是全球唯一在AI光基建行业实现量产的具身智能公司，在