2.8 策略梯度（Policy Gradient）算法与 Actor-critic算法

考虑一个简单情境：一个机器人每步都要走路（动作：左/右），环境有随机风，导致同样的动作序列也可能得到不同回报。一次 episode 冒险成功，后续回报很高，导致这条轨迹中所有出现过的“冒险动作”都被大幅提升概率；的梯度在策略分布下的期望为 0，因此减去与动作无关的项不改变梯度期望，但可以显著减少方差。这相当于只在“比预期好/差”的部分推动策略，而不是让整条轨迹的随机性把梯度带飞。策略学习的目标是最

qq_68188306

195人浏览 · 2026-02-18 14:29:46

qq_68188306 · 2026-02-18 14:29:46 发布

2.8 策略梯度（Policy Gradient）算法

在强化学习中，经典的 Q-learning / DQN 属于 基于值函数（Value-based） 的方法：它们学习的是 $Q (s, a)$ 或 $V (s)$ ，然后通过 $Q$ 的大小来间接决定动作。

而 策略梯度（Policy-based） 方法直接学习一个参数化策略 $\pi_\theta(a|s)$ ，通常用神经网络表示：

输入：状态 $s$
输出：对每个动作 $a$ 的概率分布 $\pi_\theta(a|s)$ （离散动作）或分布参数（连续动作）

策略学习的目标是最大化“从初始状态出发的期望回报”。常见写法是最大化初始状态价值的期望：
$J(\theta)=\mathbb{E}_{s_0}\left[V^{\pi_\theta}(s_0)\right]$

直观含义：让策略在环境中产生更高的长期奖励。

2.8.1 策略梯度定理的结果形式

策略梯度的推导过程较长，但最终结论是一个非常关键的形式。策略目标 $J(\theta)$ 对参数 $\theta$ 的梯度可以写为（比例意义下）：
$\nabla_{\theta}J(\theta) \propto \sum_{s\in \mathcal{S}}\nu^{\pi_\theta}(s)\sum_{a\in \mathcal{A}}Q^{\pi_\theta}(s,a)\nabla_\theta \pi_\theta(a|s)$

其中：

$\nu^{\pi_\theta}(s)$ ：在策略 $\pi_\theta$ 下，状态 $s$ 的访问分布（状态出现的“频率/权重”）
$Q^{\pi_\theta}(s,a)$ ：在状态 $s$ 采取动作 $a$ 后的期望折扣回报

把 $\nabla_\theta \pi_\theta(a|s)$ 变形为对数梯度形式（利用 $\nabla \pi = \pi \nabla \log \pi$ ）：
$\sum_{a}\pi_\theta(a|s)Q^{\pi_\theta}(s,a)\frac{\nabla_\theta \pi_\theta(a|s)}{\pi_\theta(a|s)} \mathrm{}= \sum_{a}\pi_\theta(a|s)Q^{\pi_\theta}(s,a)\nabla_\theta \log \pi_\theta(a|s)$

因此可以写成期望形式（最常用、最应该记住）：
$\nabla_{\theta}J(\theta)=\mathbb{E}_{\pi_\theta}\left[Q^{\pi_\theta}(s,a)\nabla_\theta \log \pi_\theta(a|s)\right]$

2.8.2 为什么它是 On-policy？

注意这个期望 $\mathbb{E}_{\pi_\theta}[\cdot]$ 的含义：数据 $(s, a)$ 是由当前策略 $\pi_\theta$ 自己采样得到的。因此策略梯度是 On-policy 方法。

2.8.3 直观理解：为什么 $Q$ 会“推动”概率增减？

看一个单步更新的直觉：假设我们做梯度上升
$\theta \leftarrow \theta + \alpha \, Q^{\pi_\theta}(s,a)\nabla_\theta \log \pi_\theta(a|s)$

如果某次采样到的动作 $a$ 得到的 $Q^{\pi_\theta}(s,a)$ 很大（代表“这动作很赚”），更新方向会让 $\log \pi_\theta(a|s)$ 增大，从而让 $\pi_\theta(a|s)$ 增大（未来更常选它）。
如果 $Q^{\pi_\theta}(s,a)$ 很小（甚至相对较差），更新会更倾向减少它的概率。

一句话：让策略更偏向高价值动作，远离低价值动作。

2.8.4 REINFORCE：用蒙特卡洛估计 $Q$

策略梯度里最麻烦的是 $Q^{\pi_\theta}(s,a)$ 不知道。REINFORCE 的核心做法是：用完整轨迹的 蒙特卡洛回报 来近似 $Q$ 。

对于一次采样得到的轨迹：
$(s_0,a_0,r_0,s_1,a_1,r_1,\dots,s_T,a_T,r_T)$

定义从时刻 $t$ 往后的折扣回报（Return）：
$G_t=\sum_{t'=t}^{T}\gamma^{t'-t}r_{t'}$

REINFORCE 的梯度估计写成：
$\nabla_\theta J(\theta)= \mathbb{E}_{\pi_\theta}\left[ \sum_{t=0}^{T} G_t \nabla_\theta \log \pi_\theta(a_t|s_t) \right]$

这里每一步都用该步往后的回报 $G_t$ 来评价该步的动作。

REINFORCE 算法流程（概念版）

初始化策略参数 $\theta$
对每个 episode：
- 用当前策略 $\pi_\theta$ 采样一条轨迹
- 对每个时间步 $t$ 计算回报
  $G_t=\sum_{t'=t}^{T}\gamma^{t'-t}r_{t'}$
- 做梯度上升更新
  $\theta \leftarrow \theta+\alpha\sum_{t=0}^{T}G_t\nabla_\theta \log \pi_\theta(a_t|s_t)$

一个直观案例：为什么 REINFORCE 方差很大？

考虑一个简单情境：一个机器人每步都要走路（动作：左/右），环境有随机风，导致同样的动作序列也可能得到不同回报。

第一次 episode：前面走得不错，后面突然被风吹倒，后续回报很差，导致许多前期动作也被“连坐”认为不好，因为它们共享同一个随机结果的后续回报。
第二次 episode：同样的前期动作，后面没被风吹倒，回报变好，于是这些前期动作又被认为很棒。

这种“后续随机性把信用分配强行传回前面”的现象，会导致 $G_t$ 波动很大，从而梯度更新非常不稳定，这就是 REINFORCE 的典型问题：无偏但高方差。

2.8.5 Actor-Critic 算法

策略梯度的核心公式是：
$\nabla_\theta J(\theta)=\mathbb{E}_{\pi_\theta}\left[Q^{\pi_\theta}(s,a)\nabla_\theta \log \pi_\theta(a|s)\right]$

REINFORCE 用蒙特卡洛回报 $G_t$ 来估计 $Q$ 。Actor-Critic 的思想是：既然 MC 高方差，那就训练一个 Critic 来估计价值，用它给 Actor 提供更稳定的学习信号。

Actor：策略网络 $\pi_\theta(a|s)$ ，负责“做动作”
Critic：价值网络（通常是 $V_\omega(s)$ 或 $Q_\omega(s,a)$ ），负责“评价好坏”

2.8.6 更一般的策略梯度形式：把 $Q$ 替换为 $\psi_t$

策略梯度可以写得更一般：
$g=\mathbb{E}_{\pi_\theta}\left[\sum_{t=0}^{T}\psi_t \nabla_\theta \log \pi_\theta(a_t|s_t)\right]$

其中 $\psi_t$ 是 Critic 提供的“指导信号”，它可以有多种形式。

2.8.7 Critic 信号 $\psi_t$ 的常见选择（从粗到细）

1）整条轨迹的总回报（最粗糙）

用整条轨迹的折扣总回报评价每一步：
$\sum_{t'=0}^{T}\gamma^{t'}r_{t'}$

缺点：所有时间步共享同一个标量，无法有效做时间维度的信用分配，而且必须等到轨迹结束。

2）从当前步开始的回报（REINFORCE 的 MC Return）

$G_t=\sum_{t'=t}^{T}\gamma^{t'-t}r_{t'}$

特点：无偏，但高方差。

3）加入 baseline 的版本：降低方差

把回报减去一个只与状态有关的基线 $b(s_t)$ ：
$G_t-b(s_t)$

于是梯度估计变为：
$\mathbb{E}_{\pi_\theta}\left[ \sum_{t=0}^{T}(G_t-b(s_t))\nabla_\theta \log \pi_\theta(a_t|s_t) \right]$

为什么不改变期望值（不引入偏差）？

关键点： $b(s_t)$ 与动作无关。对固定的 $s_t$ ，有
$\mathbb{E}_{a_t\sim \pi_\theta(\cdot|s_t)}\left[\nabla_\theta \log \pi_\theta(a_t|s_t)\right]=0$

直观解释： $\log \pi$ 的梯度在策略分布下的期望为 0，因此减去与动作无关的项不改变梯度期望，但可以显著减少方差。

常用基线选择： $b(s_t)=V^{\pi_\theta}(s_t)$ 。

4）直接用动作价值函数作为 Critic

如果能学到 $Q^{\pi_\theta}(s_t,a_t)$ ，就用：
$\psi_t = Q^{\pi_\theta}(s_t,a_t)$

5）优势函数 Advantage：更“相对”的评价

优势函数定义为：
$A^{\pi}(s,a)=Q^{\pi}(s,a)-V^{\pi}(s)$

含义：在状态 $s$ 下选择动作 $a$ ，相对于“平均水平”（ $V (s)$ ）到底好多少：

$A (s, a) > 0$ ：该动作比平均更好，应该提高概率
$A (s, a) < 0$ ：该动作比平均更差，应该降低概率

用优势函数做策略梯度：
$\nabla_\theta J(\theta)= \mathbb{E}_{\pi_\theta}\left[A^{\pi_\theta}(s,a)\nabla_\theta \log \pi_\theta(a|s)\right]$

6）用 TD 误差近似 Advantage：最常见的 Actor-Critic 形式

如果严格用 $A (s, a) = Q (s, a) - V (s)$ ，看起来需要同时估计 $Q$ 和 $V$ 两个函数，学习难度会变大。实践中常用 基于 $V$ 的时序差分（TD） 来近似 Advantage。

为什么 TD 形式能近似 $A(s_t,a_t)$ ？

从 Bellman 关系：
$Q^{\pi}(s,a)=r(s,a)+\gamma \sum_{s'}P(s'|s,a)V^{\pi}(s')$

在一次实际采样的转移 $s_t,a_t,r_t,s_{t+1})$ 上，用单样本近似期望：
$Q^{\pi}(s_t,a_t)\approx r_t+\gamma V^{\pi}(s_{t+1})$

代入优势函数：
$A^{\pi}(s_t,a_t)=Q^{\pi}(s_t,a_t)-V^{\pi}(s_t)\approx r_t+\gamma V^{\pi}(s_{t+1})-V^{\pi}(s_t)$

于是得到经典的 TD 误差（也常被当作优势估计）：
$\delta_t = r_t+\gamma V_\omega(s_{t+1})-V_\omega(s_t)$

3.2.10.3 Actor 与 Critic 分别怎么学？

Critic：最小化 TD 误差的平方（回归问题）

把 TD 目标当成监督信号，Critic 的损失为：
$\mathcal{L}(\omega)=\frac{1}{2}\left(r_t+\gamma V_\omega(s_{t+1})-V_\omega(s_t)\right)^2$

用梯度下降更新 $\omega$ ，让 $V_\omega(s)$ 更贴近真实的状态价值。

Actor：用 TD 误差作为优势信号做策略梯度更新

使用 $\delta_t$ 替代 $A(s_t,a_t)$ ：
$\theta \leftarrow \theta+\alpha_\theta \sum_{t=0}^{T}\delta_t \nabla_\theta \log \pi_\theta(a_t|s_t)$

直观解释：

$\delta_t>0$ ：这一步比 Critic 预期的更好，提高该动作概率
$\delta_t<0$ ：这一步比预期更差，降低该动作概率

Actor-Critic 的整体流程（概念版）

初始化 Actor 参数 $\theta$ ，Critic 参数 $\omega$
对每个 episode（或持续交互的每一步）：
- Actor 用 $\pi_\theta$ 采样动作，与环境交互得到 $s_t,a_t,r_t,s_{t+1})$
- 计算 TD 误差
  $\delta_t=r_t+\gamma V_\omega(s_{t+1})-V_\omega(s_t)$
- 更新 Critic（降低 TD 误差）
  $\omega \leftarrow \omega+\alpha_\omega \sum_t \delta_t \nabla_\omega V_\omega(s_t)$
- 更新 Actor（用 $\delta_t$ 指导策略提升）
  $\theta \leftarrow \theta+\alpha_\theta \sum_t \delta_t \nabla_\theta \log \pi_\theta(a_t|s_t)$

一个更贴近直觉的案例：Actor-Critic 如何“更稳定”？

假设一个简单游戏：智能体每一步都能选择：

$a = 0$ ：稳妥拿 1 分
$a = 1$ ：冒险，可能拿 5 分也可能拿 0 分（环境随机）

如果用 REINFORCE（MC 回报）

一次 episode 冒险成功，后续回报很高，导致这条轨迹中所有出现过的“冒险动作”都被大幅提升概率；
另一次 episode 冒险失败，回报很低，又会强烈降低概率。

策略更新会出现“大起大落”，因为 $G_t$ 会被后续随机性剧烈影响。

如果用 Actor-Critic（TD + baseline）

Critic 学习到一个“平均预期” $V (s)$ ：冒险动作平均可能也就带来某个期望收益。这样 Actor 更新时用的是
$\delta_t = r_t+\gamma V(s_{t+1})-V(s_t)$

这相当于只在“比预期好/差”的部分推动策略，而不是让整条轨迹的随机性把梯度带飞。结果就是：

更新更平滑
学习更稳定
更容易在长期任务中持续改进

小结：REINFORCE vs Actor-Critic 的核心差异

REINFORCE：用 MC 回报 $G_t$ 估计 $Q$ ，无偏但高方差，必须等轨迹结束。
Actor-Critic：学习一个 Critic（通常是 $V_\omega$ ），用 TD 误差 $\delta_t$ 近似优势，实现更低方差、更稳定的在线更新。

关键公式脉络：

策略梯度基本形式：
$\nabla_\theta J(\theta)=\mathbb{E}_{\pi_\theta}\left[Q^{\pi_\theta}(s,a)\nabla_\theta \log \pi_\theta(a|s)\right]$
Advantage 形式（更合理）：
$\nabla_\theta J(\theta)=\mathbb{E}_{\pi_\theta}\left[A^{\pi_\theta}(s,a)\nabla_\theta \log \pi_\theta(a|s)\right]$
TD 误差近似 Advantage（Actor-Critic 常用）：
$\delta_t=r_t+\gamma V_\omega(s_{t+1})-V_\omega(s_t)$
Critic 用 TD 误差做回归：
$\mathcal{L}(\omega)=\frac{1}{2}\left(r_t+\gamma V_\omega(s_{t+1})-V_\omega(s_t)\right)^2$
Actor 用 $\delta_t$ 更新策略：
$\theta \leftarrow \theta+\alpha_\theta \sum_t \delta_t \nabla_\theta \log \pi_\theta(a_t|s_t)$