人工智能标准化技术委员会
摘要: 人形机器人发展正经历文娱、工业、C端三阶段,从遥控操作向自主决策演进。江磊认为,当前硬件普及和规模化数据积累是关键,应鼓励企业探索新方向。具身智能技术架构分为“大脑”(AI大模型)、“小脑”(控制算法)和“本体”(硬件),通过多模态感知、运动控制、环境交互和大模型深度融合实现智能化。全球市场竞争激烈,资本和人才加速涌入,头部企业如宇树科技、乐聚智能等竞相上市,技术路径分化为“硬件优先”和“
人工智能标准化技术委员会
https://www.openloong.org.cn/cn/projects/zhizhi
江磊认为,机器人应用场景的发展会经历三个阶段:文娱、工业、C端。这三个阶段分别对应了人形机器人产品从“遥操作”到“半自主”再到“自主决策”的智能化水平变化。
“在人形机器人半程马拉松时,大家对遥控操作机器人有些不同意见。但我觉得,这是智能化产品推广过程中很正常的一环。在餐饮业、文娱业中,可以用遥控操作的方式先实现硬件落地,这个过程可以帮助机器人走到训练场之外,并相应地获得规模化数据,对人形机器人当前发展是非常重要的。”江磊希望,可以用一两年的时间,让硬件在市场上快速普及,吸引更多人进行软件开发。
“现在,人形机器人的‘订单潮’一定程度上是由行业热点催生出来的,实际应用价值一般。但只要公司能通过这些订单实现盈利并存活,我们也应该鼓励他们探索新方向。”江磊表示,“预测下一步各地,尤其以创新中心为代表的政府侧,会通过示范应用小镇、4S店等方式进行成果展示,带动机器人应用规模化发展。”
“人形机器人是一个复杂体,一定要以通用化的视角来打造。”江磊提到,虽然从单点场景、专用场景突破以实现机器人应用落地是企业生存的有效手段,但从技术路径上,人形机器人还应以泛化能力和通用性为目标。
江磊认为,当前人形机器人“大脑”与“小脑”的发展存在一定割裂,真正适用于人形机器人的“大脑”应是软硬件深度协同的完整系统,“小脑”也不该简单等同于VLA模型(即Vision-Language-Action Model,视觉—语言—动作模型)。
“机器人‘大小脑’方面的理论更新得很快,最近大家想做的,是用世界模型和强化学习融合具身智能。头部研究者都已开始研究,只是目前公众可能还未看到成熟的结果。”
江磊还提出,未来机器人本体能承载的算力是不足以支撑机器人行动所需的。
“现在大家发现,机器人“大脑”还不够大,能支持人形机器人运作的大模型需要更大的算力;“小脑”又不够小,占据了机器人躯干的太多空间,影响运动的实时性。”江磊表示,行业因此还在讨论,人形机器人算力的部署在云端和端侧怎样分配,以及如何保障通信的实时性。“这可能需要做模型、做硬件架构、网络通信的人共同探讨。”江磊说。
第一章:缘起
从图灵猜想,到国家战略
具身智能并非凭空而来,它的兴起本质上是一场研究范式的革命——从预设的“机器编程”转向自主的“环境学习”。
这一概念的思想源头可追溯至1950年。计算机科学之父艾伦·图灵在其论文《计算机器与智能》中首次提出了人工智能的构想,为具身智能埋下了深远的伏笔。
1980至1990年代,罗德尼·布鲁克斯和罗尔夫·普费弗等学者提出了行为主义与身体化智能理论,对传统AI的“离身”认知观发起挑战,主张智能源于机体与环境的持续互动。
进入21世纪,随着机构学、机器学习与机器人学等领域的交叉融合,具身智能在2000-2010年间逐渐形成一个相对完整的学科分支。
2010年之后,深度学习技术的突破推动研究进入新阶段。研究人员开始利用虚拟环境与大规模算力来设计与训练智能系统,使其在仿真世界中初步学习并适应物理规律。
根本性的转折发生在2017年。Transformer架构的诞生,解决了传统模型处理长序列数据的瓶颈,为后续的大模型技术爆炸埋下种子。
2022年后,ChatGPT等现象级应用的爆发证明了大型语言模型在理解与规划上的强大能力,相当于为机器人配备了一个通用的“任务大脑”。
至此,通向通用机器人的技术路径豁然开朗,即将大模型的“脑”与机器人的“身”深度融合。2023年,斯坦福大学的ALOHA(一个开源的双臂机器人模仿学习系统)研究项目展示了机器人通过观察人类视频模仿学习精细操作技能的潜力,实现了从“编程执行”到“模仿学习”的关键跨越,推动具身智能在2025年走向产业前沿。
正如石海林所言,当前产业仍处于早期探索与商业化加速阶段,“具身智能在未来3-5年的时间将步入成熟期。” 每一次技术跃进,都在为具身智能的最终成熟积累了必要的基础。
第二章:架构
“大脑”、“小脑”与“身体”的协同奥秘
具身智能的本质,是为人工智能赋予一个能够感知和行动于现实世界的物理身体。在众多形态中,人形机器人因其与人类环境天生的兼容性,被视为实现通用具身智能最具潜力的载体。
当前,业界普遍采用“大脑、小脑、本体”的三层架构来解构人形机器人的系统。这套架构的核心思想是 “智能解耦”,将复杂的认知任务与高精度的实时控制分离。
- “大脑”指代AI大模型,负责语言理解、环境感知与高级任务决策等;
- “小脑”则是运动控制算法,调度机器人的协调与平衡、实时避障等;
- “本体”是硬件载体,包括骨骼结构、关节电机、传感器和灵巧手等,负责最终执行动作。
此架构的精妙之处在于让最合适的系统处理最擅长的任务。依托此设计,高性能的“大脑”(AI大模型)可部署于云端,专注处理环境感知、语言理解与复杂决策;轻量而高效的“小脑”(控制算法)则负责本体的实时运动协调与平衡。二者各司其职,共同构成了一个既能深思熟虑又能敏捷反应的高效系统。
而决策与控制的协同,离不开精准的感知作为前提。 传感器作为机器感知物理世界的“感官”,其精度与可靠性成为决定机器人能否在非结构化环境中自如行动的关键一环。当前,中国传感器市场规模已突破千亿元,并以每年15%的速度持续增长。视觉、触觉、力觉等多模态感知能力的融合提升,直接影响机器人在复杂、动态环境中的适应能力。
四大技术演进,重构“感知-决策-行动”闭环
业界人士指出,具身智能的成熟,最终体现为在真实世界中形成一个高效、鲁棒的“感知-决策-行动”闭环。未来具身智能正由四大关键技术的协同演进所驱动,分别包括多模态感知融合、运动控制的“智能-控制”一体化、环境交互的自主化,以及大模型与具身系统的深度耦合。
1、多模态感知从“精准识别”走向“深度融合”
作为机器理解物理世界的基础,感知技术正超越单一模态(如纯视觉或纯触觉)的精度竞赛,迈向多源信息的协同与互补。其演进呈现三个清晰路径:
首先,通过物理模拟器与世界模型构建高保真虚拟训练场,为智能体提供近乎无限的“试错”空间,以极低成本积累物理经验。
其次,利用生成式AI逆向设计机器人本体结构,实现机械硬件与控制算法的协同优化,从源头提升能效与性能。
最后,构建大规模、高质量的具身决策数据集,为复杂、长尾场景下的任务策略迁移提供数据燃料。
2、运动控制呈现“智能-控制”一体化特征
运动控制正从依赖精确环境模型的传统范式,向更灵活、自适应的智能范式转变。其核心是构建类似生物的“大脑-小脑”协同架构:由“大脑”(大模型)负责高层任务规划与语义理解,而“小脑”(专用控制算法)则专精于底层运动的实时、高精度执行。
其技术突破体现在三个层面:模型预测控制与强化学习的融合,赋予机器人在不确定环境中的在线学习与调整能力;借鉴生命科学的冗余控制机制,增强系统的抗干扰性与鲁棒性;以及在设计阶段便实现的软硬件深度协同,确保算法效能被物理结构完美承载。
3、环境交互从“预设响应”升级为“自主适应”
环境交互能力是检验具身智能水平的终极试金石。其发展趋势是从结构化场景中的预设行为,向非结构化环境中的自主决策与主动适应跃迁。这依赖于世界模型与物理模拟器构成的“数字孪生”系统,让机器人能在虚拟世界中通过“想象”进行推理和预演,再将习得的能力迁移到现实。
4、大模型从“云端大脑”深化为“系统灵魂”
大模型与具身智能的融合,正从初期的“赋能”(提供对话接口)走向更深层次的“重塑”。它不再仅是处理自然语言的“大脑”,而是进化为整个系统的“灵魂”,催生出“模型即服务”的新产业范式。
具体表现为在工业制造中,灵巧手融合视觉与力控模型,实现“抓取无震颤”的精细操作;在医疗领域,手术机器人通过多模态模型实时构建人体3D图谱,达成“眼-脑-手-力”的闭环反馈;在物流等复杂系统中,大模型则成为调度全局、实现多机协同的决策中枢。
第三章:改变
大模型驱动认知跃迁,工具变身助手
如果说传统机器人是“聪慧的工具”,那么具身智能机器人则是“有思想的助手”。这一转变的根本动力来自大模型的强大认知能力。
从控制系统的角度看,传统机器人采用的是分层控制架构——规划层、动作层、基元层、伺服层逐级递进。具身智能机器人则在此基础上增加了“需求理解层”和“任务分解层”,两层由大模型驱动,使得机器人能够理解自然语言指令、自主规划任务序列。
上述能力的获得源于大模型在多模态学习上的突破。据悉,北京大学与人民大学的联合研究团队首次构建了百万规模的动作生成数据集MotionLib,利用互联网视频训练通用动作生成框架Being-M0,实现了人类动作向多类型人形机器人的跨平台迁移。
这意味着机器人不再需要针对每个任务逐个编程,而是能够通过观看视频学习,实现真正的泛化能力。
硅谷创新公司Figure AI的最新模型Helix则展现了让机器人像人类一样思考与行动的可能性,标志着端到端学习时代的来临。
虽然技术指标令人瞩目,但其核心价值在于实现了从“规则执行机器”到“自主决策体”的质的飞跃。
然而大模型的应用并非无所不能。当前阶段,大模型主要擅长需求理解、任务分解等高层级控制,而在低层运动控制中的精确性和实时性仍然有限。
如此人形机器人采用“大脑+小脑”的协同架构,大模型负责规划,传统控制算法负责执行,形成高效互补的发展路线更加清晰。
协同架构的认知指导了产业的技术选择,企业不会盲目追求“大模型包打天下”,而是理性地寻求技术的最优配置。
第四章:竞速
全球赛局开启,融资与上市并驱
特别是2025年下半年以来,人形机器人领域的竞争骤然升级,从实验室的技术演示,全面转向产品发布、资本运作与战略落地的全方位竞速。一时间,核心技术、应用场景、融资额度与顶尖人才的流向,无不成为激烈争夺的焦点,全球市场竞争已呈 “烽烟四起” 之势。
全球赛局开启,融资与上市并驱
特别是2025年下半年以来,人形机器人领域的竞争骤然升级,从实验室的技术演示,全面转向产品发布、资本运作与战略落地的全方位竞速。一时间,核心技术、应用场景、融资额度与顶尖人才的流向,无不成为激烈争夺的焦点,全球市场竞争已呈 “烽烟四起” 之势。
国内赛道的焦点无疑是头部企业的“上市竞速”。宇树科技于11月15日率先完成IPO辅导验收,仅用四个多月便走完全程,叩响“A股人形机器人第一股”的大门。乐聚智能此前已完成于10月30日完成IPO辅导备案冲刺IPO,而傅利叶、智元机器人、云深处科技等公司完成股改,则预示着后续的资本浪潮将更为汹涌。
资本正以前所未有的力度重仓押注。机构预测,到2026年全球具身智能市场将突破百亿元,年增速超60%。而人才的争夺更为直观,字节跳动为“人形机器人算法专家”开出百万年薪。华为、腾讯、小米通过投资与自研双线布局,比亚迪、上汽凭借制造底蕴强势切入。
吉利则采取投资与产业合作相结合的策略,与优必选、银河通用等企业建立合作关系,并于11月20日领投星动纪元完成10亿元融资。值得关注的是,星动纪元已获得超过5亿元的年度订单,与吉利、雷诺、顺丰等企业在具体场景展开合作。
全球赛场同样波澜迭起。在瑞士联邦第一大城市苏黎世,初创公司Flexion宣告结束隐身模式,凭借其专攻机器人“大脑”的技术路线,一举获得由英伟达和DST Global等领投的5000万美元A轮融资。与此同时,安卓之父安迪·鲁宾在东京创立Genki Robotics,此举不仅是对技术本源的回归,更是对日本精密制造生态战略价值的一次精准卡位。
市场的激烈竞争,使得“硬件优先”与“模型优先”两大技术路径的分野愈发清晰。宇树科技、逐际动力等代表“硬件派”,从其双足机器人CL-1的动态行走能力展示中,可见其对本体控制与机械可靠性的极致追求;而近期浮出水面的Flexion和发布SesameX系列计算平台的黑芝麻智能,则代表了“模型派”的思路,致力于为多样化的机器人“躯体”提供强大的智能核心与算力底座。
从硅谷、东京…到深圳、北京、上海,人形机器人的竞争已从实验室demo,走向产品、资本与战略的全面交锋。这场竞赛也推动了上游产业链的协同突破。例如奥比中光发布新一代机器人专用深度相机,提升了机器的“视觉”感知精度。众多企业的进展共同表明,具身智能的快速发展,正依赖于一个持续创新、相互支撑的产业生态,未来可期。
第六章:落地
叩开商业化大门,多场景渗透路径
当技术聚变达到临界点,商业化应用的大门便随之开启。全球市场竞争格局呈现出传统机器人企业、互联网巨头与新兴创业公司同台竞技的多元化态势,而清晰的渗透路径与持续下降的成本,正共同推动产业从实验室走向规模化应用。
纵观产业链,上游核心部件是关键壁垒与突破口。据业界信息,传感器、减速器、伺服系统与芯片等上游核心零部件,仍占据人形机器人总成本的70%以上,是价值集聚的高地。值得关注的是,中国在谐波减速器、伺服系统等领域的国产化率正持续提升,预计到2025年,关键部件国产化率将达35%-50%,此举将有力推动整机成本下降30%,为规模化普及扫除障碍。
从应用场景看,产业正遵循一条从简单到复杂、从专用到通用、从ToB到ToC的渗透路径。

图片来源:国地共建人形机器人创新中心首席科学家江磊会议演讲内容
工业制造与物流是目前落地最快、效果最显著的领域。因其环境相对可控、任务定义清晰,例如因时机器人的五指灵巧手,凭借内建的力控传感器与标准动作库,实现了“抓取精准无震颤”,已广泛应用于医疗器械、3C制造等高精度作业中。
医疗康复与服务场景正加速渗透。傅利叶智能等公司研发的康复机器人,通过柔顺控制技术,为患者提供精准、安全的辅助训练;CAIR的微创手术机器人则实现了“眼-脑-手”协同,大幅提升手术的精准度与安全性。
特种应用与未来想象。在安防巡检、应急救援乃至未来的航天航空等极端或特种环境中,具身智能机器人正展现出替代人类进行高危作业的巨大潜力。
据《2025人形机器人与具身智能产业研究报告》预测,2025年,全球具身智能市场规模预计达195.25亿元,2030年预计达2326.3亿元,复合年增长率(CAGR)达64.18%。而我国2025年具身智能市场规模将达52.95亿元,占全球约27%;其人形机器人市场规模将达82.39亿元,占全球约50%。
另据国务院发展研究中心相关研究报告认为,中国具身智能产业市场规模有望在2030年达到4000亿元、在2035年突破万亿元。
人形机器人作为具身智能技术的先锋赛道,其迅猛发展是推动整个产业达到千亿级规模预期的重要引擎。人形机器人的高占比更是凸显出中国在硬件制造与特定赛道上的优势;而具身智能的广阔前景则揭示了其作为未来重要战略性产业与各行各业深度融合的巨大潜力。
第七章: 前瞻
冷思考与未来路径
尽管前景广阔,但人形机器人产业的成熟仍需穿越多重挑战。当前,技术的泛化能力尚不足以应对所有现实场景的复杂性与长尾问题。在机器人领域,多数企业的融资阶段偏早期,大多数公司还处在“技术验证”阶段,离真正走入千家万户还有不小距离。同时,商业回报阈值也还不足以完全支撑高昂的量产成本,行业存在“估值前置、收入滞后”的现象,不少项目仍停留在概念验证或样机演示阶段。
业**界认为,在未来3-5年的关键培育期内,产业参与者需要保持战略耐心,理性选择切入场景,避免陷入“技术万能”的盲目乐观。**具身智能的终局,并非是创造一个无所不能的“通用人工智能体”,而是在特定边界内,成为能够深刻理解人类意图、并与物理世界进行高效、安全协作的“伙伴”。
具身智能的发展轨迹,更可能是一条陡峭而持续的上升曲线,而非瞬间爆发的奇点。当技术突破、成本下降与市场接受度在某一节点交汇,我们才能真正迎来机器“人”时代的全面开启。
在2025世界机器人大会(WRC)主论坛的技术融合篇章中,国家地方共建人形机器人创新中心首席科学家江磊发表了题为《“青龙”启航——解锁人形机器人开源新密码》的演讲,系统阐述了国地中心成立一年来的关键成果、中国人形机器人产业现状,以及“开源+标准”双轮驱动的发展思路。以下为其主要观点摘要:
-
国地中心定位与成果
- 2024年5月成立,7月发布国内首款全尺寸开源人形机器人“青龙”;2025年相继推出“麒麟训练场”“白虎异构数据集”“龙腾”具身智能模型,并将OpenLoong项目捐赠给开放原子开源基金会。
- 使命是聚焦共性技术,解决“硬件门槛高、软件算法难、软硬解耦难、知识积累难、人才聚集难、安全应用难”六大痛点,让企业“不必从轮子做起”。
-
产业现状:七个“全球第一”与“肢体领先、大脑追半、小脑争先”
- 国内整机平台已超160家,真机数据逾600万条,核心零部件企业爆发式增长;2025年1-7月融资总额突破240亿元,超过2024全年。
- 技术格局:肢体(运动能力)全球领先;“大脑”(高层决策)仅追平一半,需云-网-端全参数大模型;“小脑”(运动控制)呈现争先态势,有望率先突破。
-
开源到标准:打造“大脑-小脑-肢体”接口与评价框架
- 国地中心已牵头制定数据格式、安全伦理、性能评价三大空白标准,发布全球首个全尺寸公版机“青龙”和开源社区OpenLoong,形成硬件底座。
- 目标是通过开源共享降低行业进入门槛,再以标准统一接口,加速场景落地。
-
产业化“三步走”路径:先文娱、再工业、后家庭
- 借鉴新能源汽车25年商用历程,江磊提出将周期压缩至5-10年:
① 文娱场景(婚礼、表演)对智能要求低,可率先放量;
② 工业场景(装配、巡检)积累数据、提升可靠性;
③ 家庭场景(服务、陪护)最终实现大规模进入。 - 强调通过“中国人形机器人百人会”凝聚共识,以遥操作→半自主→自主的节奏解决智能问题。
- 借鉴新能源汽车25年商用历程,江磊提出将周期压缩至5-10年:
-
技术挑战与未来方向
- 感知局限、决策断层、泛化瓶颈仍是三大难题;呼吁重构VLA模型,用“具身智能+”打造真正的大脑-小脑-肢体一体化AI体系。
- 大模型端侧部署不足:当前多为7B小参数裁剪版,需探索云端全参数模型与端侧实时算力分配,形成云-网-端覆盖。
- 数据工厂模式:借鉴π0经验,在真实工厂、生活场景持续采集异构数据,推动强化学习与模仿学习进入Scaling Law。
-
市场判断
- “超无可超,中国正在定义新赛道”——美国公司尚难明确落地场景,而中国拥有全球最大、最丰富的场景红利:婚礼、餐饮、制造、康养等遍地开花。
- 建议投资者与创业者“今年赶紧进场”,明年或将诞生更多百亿估值公司。
综上,江磊在多次会议演讲中的核心信息高度一致:以开源降低门槛、以标准统一生态、以场景驱动数据、以“三步走”压缩产业化周期,最终实现中国人形机器人从“炫技”到“规模商用”的跃迁。
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)