π₀.7 的天才之处，和大模型真没有“半毛钱”关系…

从数学层面，强制模型的动作演化逻辑对齐人工目标，杜绝模型自主生成混乱、偏离任务的动作，就像新人全程被导师纠错，最终养成“听指令、按引导做事”的能力，从根源上保障了模型可调制、可引导的核心属性，严格匹配论文条件对齐的训练核心思想。模型可实时接收每一层级的细化引导，人工随时修改子任务、子目标，一步步修正模型行为，实现全程可和精准引导，才能契合论文“steerable generalist（可引导通用智

深蓝学院

19人浏览 · 2026-06-04 16:19:54

深蓝学院 · 2026-06-04 16:19:54 发布

π₀.7 超越前代模型的关键在哪？

——从数学原理出发

01 统一基础符号定义

02 Steerable（可引导性）核心数学原理

分层引导嵌入生成公式（这是可引导性核心输入）

条件约束流匹配损失（可引导性训练约束）

可引导推理生成公式（可引导性落地过程）

03 Emergent Capacities（涌现能力）核心数学原理

05 与前代模型的核心差异（特性维度对比）

"大模型驱动机器人" 是一个价值数千亿美元的叙事。

π₀.7作为2026 年具身智能模型的绝对标杆，站在这条叙事线的最顶端。

它能叠衣服、摆碗筷、从一堆工具里准确挑出你描述的那个。所有人都说，可引导性、涌现能力来了，通用机器人就差临门一脚。

关于π₀.7，想必大家对该基础模型已不陌生。此前我们也曾系统拆解过它的整体架构、流匹配框架以及多模态输入设计等运行逻辑。

本文不再复述已有内容，而是要聚焦其两个核心标签：

Steerable（可引导性）、Emergent Capacities（涌现能力）

极具“反差”的是：π₀.7能实现那些令人震撼的上述两大能力，可能恰恰是因为它在最核心的地方，选择「抛弃」了大模型的范式（严谨的来说，基本不是大模型的功劳）。

本文将尝试结合最核心的数学公式，匹配对应的机器人实操案例，不仅告诉你每一条公式在计算什么，更要告诉你：

为什么是这条公式，它为什么能支撑π₀.7分步引导、技能组合与跨本体迁移。

01 统一基础符号定义

首先我们统一全文核心符号，便于开展可引导性、涌现能力的数学推导，消除逻辑歧义：

观测与指令变量

$o_t$ 为 $t$ 时刻机器人全局观测： $o_t = I_t^n,\ell_t,\ell_{sub},g_t,q_t$

包含多视角图像 $I_t^n$ 、全局自然语言指令 $\ell_t$ 、精细化子任务指令 $\ell_{sub}$ 、子目标状态 $g_t$ 、机器人本体关节状态 $q_t$ ，是可引导性的输入载体；

动作变量：

$A_t = \left[a_t,a_{t+1},\dots,a_{t+H-1}\right]$ 为长度 $H=50$ 的长时序连续动作块，对应机器人高频灵巧操作，涌现能力的输出载体，贴合论文长时序任务建模方案；

流匹配时序变量：

$\tau\in[0,1]$ 为流演化时间步， $A_t^\tau$ 为带噪插值动作， $\epsilon \sim \mathcal{N}(0,I)$ 为标准高斯噪声，沿用论文流匹配核心时序定义；

网络与嵌入变量：

$v_\theta$ 为860M参数动作专家网络， $z$ 为多模态分层引导嵌入，是连接人为引导与自主涌现的核心中间变量，对应论文多模态提示调控核心设计。

简单来说，π₀.7 所依托的流空间是一个囊括机器人所有动作逻辑、不受具体场景和硬件束缚的连续通用动作空间，摒弃了传统机器人离散、孤立的动作存储形式，将抓取、旋转、折叠等各类原子操作的底层规律整合为统一的几何能力容器。

而流匹配则是驱动动作生成的核心机制，让模型能够从流空间的随机噪声状态出发，在多模态分层人工提示的精准引导下，通过连续迭代修正逐步流向合理、平滑、精准的真实动作轨迹。

正是这套连续的空间建模与动态演化机制，既让模型具备了可分步干预、实时调控的 Steerable 可引导特性，也让模型得以自主重组已学原子技能、适配未知场景与全新硬件。

最终诞生出传统任务拟合模型不具备的Emergent 组合泛化涌现能力。

02 Steerable（可引导性）核心数学原理

π₀.7 的可引导性官方定义出自论文原文：

“The model is steerable via diverse prompting strategies, enabling step-by-step human guidance for novel tasks” （模型可通过多样化提示策略实现可控引导，支持人类对全新任务的分步指导）。

模型可通过分层、多维度自然语言与视觉提示，精准调控动作生成策略，支持任意分步指令、子目标修正、任务优先级调整，区别于传统模型固定输入输出的僵化模式。

其核心依托多模态条件流匹配调制机制实现，全套每个都有专属数学公式。

分层引导嵌入生成公式（这是可引导性核心输入）

为实现精细化人为引导，模型摒弃单一视觉语言嵌入，构建四维分层引导嵌入，覆盖指令、子任务、子目标、任务元信息全维度引导。

对应论文核心设计：

“diverse contextual conditioning and multimodal prompting for precise policy steering” 依托多样化上下文条件与多模态提示实现精准策略引导。

$z = \mathrm{Concat}\big(z_\mathrm{VL}, z_\mathrm{subtask}, z_\mathrm{subgoal}, z_\mathrm{meta}\big)$

其中各分支嵌入定义：

$z_\mathrm{VL} = \mathrm{Gemma34B}(I_t, \ell_t)$

$z_\mathrm{subtask} = \mathrm{Embed}(\ell_\mathrm{sub})$

$z_\mathrm{subgoal} = \mathrm{Embed}(g_t)$

$z_\mathrm{meta} = \mathrm{Embed}(\mathrm{robot\_type},\mathrm{env\_param})$

该公式是 Steerable 可引导性的底层支撑，可以用带步骤指导的新人教学生活实例直观理解：

传统机器人模型像只会死记答案的学生，只能接收“完整最终任务指令”，没法中途调整、分步指导；

而π₀.7的四维分层嵌入，目的是落地论文多样化提示策略，相当于人类带新人时的全套指导话术：

全局指令是“做完一顿简餐”；

子任务指令是“先洗食材、再摆放入锅”；

子目标是“食材摆放整齐的状态”；

元信息是“用空气炸锅而非平底锅”。

模型可实时接收每一层级的细化引导，人工随时修改子任务、子目标，一步步修正模型行为，实现全程可和精准引导，才能契合论文“steerable generalist（可引导通用智能）”的核心定义。

条件约束流匹配损失（可引导性训练约束）

将分层引导嵌入作为动作生成的强制条件，让模型所有动作演化过程服从人为引导意图，构建可引导的训练目标。

符合论文训练范式：

“conditioned flow matching aligns action generation with human-specified subtasks and subgoals”

条件流匹配让动作生成与人类指定的子任务、子目标对齐。

$\mathcal{L}^\tau(\theta) = \mathbb{E}_{p(A_t|o_t),\,q(A_t^\tau|A_t)} \Big\| v_\theta(A_t^\tau,z) - u(A_t^\tau|A_t) \Big\|^2$

式中： $u(A_t^\tau|A_t) = \epsilon - A_t$ 为真实流向量场，唯一变量为引导嵌入 $z$ 。

我们同样用约束训练新人做事逻辑举例来帮助理解：

传统流匹配模型是“无约束自学”，只会根据过往经验机械做事，没人纠正对错、没有目标导向；

而π₀.7的条件约束损失，相当于给模型套上了人工指导的纠错机制。

训练过程中，无论模型怎么迭代生成动作、修正噪声，所有行为都必须符合人类给出的分层引导意图。

从数学层面，强制模型的动作演化逻辑对齐人工目标，杜绝模型自主生成混乱、偏离任务的动作，就像新人全程被导师纠错，最终养成“听指令、按引导做事”的能力，从根源上保障了模型可调制、可引导的核心属性，严格匹配论文条件对齐的训练核心思想。

可引导推理生成公式（可引导性落地过程）

推理阶段，引导嵌入全程调控动作迭代生成，实现动态引导干预。

对应论文动态引导能力：

“supports in-context intervention and real-time instruction adjustment during long-horizon task execution”

（支持长时序任务执行中的上下文干预与实时指令调整）。

$A_t^{\tau+\delta} = A_t^\tau + \delta\cdot v_\theta\big(A_t^\tau,z_\mathrm{dynamic}\big),\quad \tau:0\to1$

其中 $z_\mathrm{dynamic}$ 为动态更新引导嵌入，支持推理过程中实时修改子任务、子目标提示。

这是可引导性的落地体现，对应生活中动态调整任务指导的场景：

比如指导新人做饭，做到一半发现摆放位置错误，可立刻叫停并给出新指令“调整食材角度”。

传统模型是“一次性输入指令，全程无法修改”，相当于新人只能按最初指令死板执行，中途无法纠错；

而π₀.7的动态引导嵌入 $z_\mathrm{dynamic}$ ，支持任务执行中实时更新指导信息。

模型每一步动作迭代都服从最新的人工引导，实现实时 steerable 可控调节，适配做饭、收纳、设备操作等步骤繁琐、需要随时微调的复杂长时序机器人任务，完全落地论文实时干预的可引导特性。

03 Emergent Capacities（涌现能力）核心数学原理

论文对涌现能力的原始定义是：

“The model exhibits emergent compositional generalization, enabling it to solve unseen tasks by mixing and matching learned atomic skills without task-specific fine-tuning”

模型具备组合泛化涌现能力，可通过混搭已学原子技能解决未知任务，无需专项微调。

π₀.7 的涌现能力特指模型脱离训练数据局限，自主组合已学原子技能、推理未知任务、跨场景跨本体适配的全新能力，是区别于传统拟合模型的主要突破。

其数学本质为技能组合泛化建模、无约束任务推理、跨域映射自适应，完全依托专属数学公式实现能力涌现，而不是靠价加个外挂来搞简单数据记忆。

原子技能组合涌现公式（核心涌现机制）

模型不固化“任务-动作”一对一映射，而是学习可拆卸、可重组的原子技能集合

$S = s_1, s_2, \dots, s_n$

通过技能概率叠加实现未知新任务涌现，对应论文核心创新：

“compositional generalization empowers zero-shot task solving for out-of-distribution scenarios”

组合泛化能力赋能分布外场景的零样本任务求解。

$p(\mathcal{T}_\mathrm{new}|z) = \sum_{s_i,s_j\in S} p(\mathcal{T}_\mathrm{new}|s_i,s_j,z)\cdot p(s_i|z)\cdot p(s_j|z)$

式中： $\mathcal{T}_\mathrm{new}$ 为训练集从未出现的全新任务， $s_i$ 、 $s_j$ 为模型已学习的基础原子技能（抓取、按压、旋转、折叠等）。

该公式是 emergent capacities 涌现能力的核心数学表达，用人类举一反三的学习能力即可直观理解：

人类不用学遍所有生活场景，学会“抓取、摆放、加热”基础技能，就能自主完成“烤红薯、炸薯条、热牛奶”等从未做过的新任务。

传统机器人模型是“记题不理解”，只学固定任务、只会固定任务；而π₀.7通过该概率叠加公式，把所有技能拆解为可重组的原子模块，无需针对新任务专项训练，就能组合旧技能、推理新动作逻辑。

实操实例：

模型训练中只学过【抓取面包】【操作空气炸锅】两个独立技能，从未见过“用空气炸锅烤面包”的任务，依靠该组合公式自主涌现出全新操作能力，以此来印证论文强调的组合泛化涌现特性。

流空间泛化涌现公式（跨环境能力涌现）

为实现未知环境、未知场景的能力涌现，模型构建流空间自适应泛化机制，消除环境扰动对动作生成的影响，符合论文泛化设计：

“learns environment-agnostic action dynamics for robust cross-scene transfer”

学习与环境无关的动作动力学，实现稳健的跨场景迁移。

$v_\theta(A_t^\tau,z) = \mathop{\arg\min}_{v_\theta} \mathbb{E}_{env \sim \mathcal{P}_{env}} \big\| v_\theta(A_t^\tau,z) - u(A_t^\tau|A_t) \big\|^2$

式中 $\mathcal{P}_{env}$ 为全域环境分布，覆盖训练、未知测试环境。

直观上可以类比人类适应新环境的能力：

人学会做饭后，不管是在自家厨房、食堂还是临时露营灶台，都能快速适配环境、完成做饭任务，不会因为环境变了就不会做。

传统机器人模型只会适配训练时的固定场景，换一个新环境、新道具就彻底失效；而该公式让π₀.7摒弃“场景专属动作记忆”，拟合所有环境下的通用操作规律。

实操实例：

模型在纯白桌面训练过折叠毛巾，部署到杂乱书桌、带遮挡的实验台面、家用茶几等全新未知环境时，无需微调参数，自主适配环境扰动、完成精准折叠，完美涌现跨场景适配能力，验证了论文环境无关动力学建模的有效性。

跨本体迁移涌现公式（跨机器人能力涌现）

π₀.7 具备跨机器人本体的能力涌现特性，可自主适配不同机械臂、不同机器人硬件，数学上通过本体变换算子实现。

论文对应跨硬件能力描述是：

“generalizes across diverse robot morphologies without hardware-specific fine-tuning”

可跨多种机器人形态泛化，无需硬件专属微调。

$v_{\theta'} = \mathcal{T}(v_\theta),\quad \theta' = \mathop{\arg\min}_{\theta} \big\| \mathcal{T}\big(v_\theta(A_t^\tau,z)\big) - v_\mathrm{gt} \big\|^2$

式中 $\mathcal{T}$ 为硬件本体变换算子， $v_\mathrm{gt}$ 为新机器人本体的最优动作向量场。

我们用人类通用动手能力类比：

人类学会“抓取物品”的核心逻辑后，不管是用左手、右手，还是适配不同工具，都能快速上手，不需要重新学习抓取。

传统模型绑定固定硬件，专属机械臂的参数、动作逻辑无法迁移，换一台机器人就彻底报废；

而π₀.7学习的是通用操作意图，不是硬件专属动作。依托本体变换算子 $\mathcal{T}$ ，可自主适配不同尺寸、不同结构的机械臂。

实操实例：

模型在小型桌面机械臂上学会“拧瓶盖”，可直接迁移到大型工业机械臂、仿生灵巧手，自主适配硬件差异、完成拧盖操作，跨硬件涌现全新适配能力，精准落地论文跨形态通用泛化的核心优势。

04 两大核心特性的数学逻辑闭环

π₀.7 的 Steerable 可引导性与 Emergent 涌现能力并非独立存在，而是形成完整数学闭环。

契合论文整体技术逻辑：

“Steerable prompting constrains emergent behaviors to be task-aligned, while emergent generalization enables flexible responses to human guidance” 可引导提示约束涌现行为符合任务，涌现泛化能力支撑对人工引导的灵活响应。

可引导性是涌现能力的约束边界：

分层多模态提示的 steerable 机制，为技能组合、跨域泛化提供意图约束，避免模型涌现无意义、偏离任务的动作，让自主涌现能力可控、可用；

涌现能力是可引导性的能力支撑：

基于原子技能重组、跨域泛化的 emergent 机制，让模型能够响应人工引导的全新指令，不会因引导新任务而失效，从而突破传统可控模型的能力上限；

统一流匹配框架为底层载体：

所有引导调控、能力涌现均基于连续流匹配数学框架，实现了“人为可控+自主智能”的双重突破，也是π₀.7 超越前代机器人模型的主要数学本质。

05 与前代模型的核心差异（特性维度对比）

为了忠实于原文，我们对照论文迭代总结：

“Prior π variants lack fine-grained steerability and compositional emergence, limited to rote task memorization” 前代π系列模型缺乏精细化可引导性与组合涌现能力，局限于机械任务记忆。

π₀/π₀.6：无分层引导机制，无 Steerable 可控性；

仅能拟合固定任务，无自主 Emergent 涌现能力，泛化依赖数据记忆；

π₀.7：

通过多模态条件调制实现全维度 Steerable 可引导，通过技能组合概率建模实现原生 Emergent 能力涌现，从数学层面完成从“任务拟合模型”到“通用可控智能模型”的升级。

这一升级的数学本质，不再是离散动作的记忆与复现，而是连续动作流空间中条件生成、组合泛化与本体解耦的协同实现。

回到开篇，为什么我们一定要从数学原理出发，去理解π₀.7的可引导性和涌现能力？

因为，公式不会说谎。

π₀.7 把语言、视觉、动作塞进同一个光滑流形，产出了令人瞠目的物理行为。

但它离理解、离推理、离真正的可引导和涌现，还有一整条从统计走向因果的深渊。

希望本文的公式与实例互证，能够为理解这一突破提供一个可追溯、可验证的分析视角。

Ref

Physical Intelligence. π₀.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities.

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

AU-48 双麦AI降噪语音处理模组

DAMO开发者矩阵

触觉的中间道路：压力中心表示如何打通灵巧操作的Sim-to-Real鸿沟

摘要：苏黎世联邦理工学院（ETH Zurich）与加州大学伯克利分校（UC Berkeley）的研究团队提出了一种基于物理的压力中心（Center-of-Pressure, CoP）触觉表示法，解决了机器人触觉Sim-to-Real迁移的难题。CoP将高密度触觉数据压缩为合力向量和等效接触点，既保留了力学信息，又对仿真偏差具有鲁棒性。该方法通过可微分应力分布模型和无需真值传感器的自校准技术，实现