（《机器学习》完整版系列）第7章贝叶斯分类器——7.8 再谈极大似然（对数边际似然）

一个样本的似然、一组同类样本的似然、整个数据集上的似然对数似然（对数边际似然）：通过求期望（求和或求积分）来减少概率中的变量称为边际化。

人工干智能

617人浏览 · 2023-02-26 17:09:09

人工干智能 · 2023-02-26 17:09:09 发布

一个样本的似然、一组同类样本的似然、整个数据集上的似然
对数似然（对数边际似然）：通过求期望（求和或求积分）来减少概率中的变量称为边际化。

再谈极大似然

回顾极大似然估计MLE，我们先讨论关键概念“似然”。

（1）当关注分类时，参数视为与类别标识直接相关的，即 ${\Theta}_c$ ，这时为7.3 极大似然法篇的内容，即

一个样本的似然： $P(\boldsymbol{x}\,|\,c )$ ，更一般为： $P(\boldsymbol{x}\,|\,{\Theta}_c )$ ，可依属性进行分解，如，朴素贝叶斯和半朴素贝叶斯假设。
一组同类样本的似然：数据集 $D$ 的 $c$ 类构成子集 $D_c$ ，则该子集的似然为 $P(D_c\,|\,{\Theta}_c )$ ，可依样本进行分解，得【西瓜书式(7.9)】。

（2）当并不是关注分类（如，无监督学习）时，上述参数中的下标 $c$ 即可去掉，特别地，这时可以在整个数据集 $D$ 上（ $D$ 中可以含有重复的样本）考察“似然”
$\begin{align} P(D\,|\,\Theta )=\mathop{\prod }\limits_{\boldsymbol{x} \in D}P(\boldsymbol{x}\,|\,\Theta) \tag{7.50} \end{align}$
其中， $D=\{\boldsymbol{x}_i\}_{i=1}^m$ 。

似然分解成积后，易想到用对数来进行运算处理，这就是“对数似然”。

类似于上节中将 $\boldsymbol{x}$ 分解为证据变量集 $\boldsymbol{E}$ 和待查询变量集 $\boldsymbol{Q}$ ，这里改一下名称：设 $\boldsymbol{x}=(\boldsymbol{E},\boldsymbol{Q})$ ，其中， $\boldsymbol{E}$ 是观测变量集，而 $\boldsymbol{Q}$ 是未观测变量集（未观测变量称为“隐变量”）。

将 $D$ 视为一个矩阵（称为设计矩阵）：每行为一个样本，每列为一个属性，则该矩阵大小为 $m\times d$ 。现在将矩阵 $D$ 依观测变量集 $\boldsymbol{E}$ 和未观测变量集 $\boldsymbol{Q}$ 分裂成左右两个子矩阵，即 $D=(\mathbf{X},\mathbf{Z})$ ，则式(7.50)变为
$\begin{align} P(\mathbf{X},\mathbf{Z}\,|\,\Theta )=\mathop{\prod }\limits_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}P(\boldsymbol{x}\,|\,\Theta) \tag{7.51} \end{align}$
其中， $\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})$ 表示 $\boldsymbol{x}$ 是矩阵 $(\mathbf{X},\mathbf{Z})$ 的一行。

使用对数似然公式，则式(7.51)变为
$\begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z}) & =\ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta )\tag{7.52} \\ & =\ln \mathop{\prod }\limits_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}P(\boldsymbol{x}\,|\,\Theta)\notag \\ & =\sum_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}\ln P(\boldsymbol{x}\,|\,\Theta) \tag{7.53} \end{align}$

我们知道，对变量求期望可以消去该变量，如，消去隐变量
$\begin{align} \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, P(\mathbf{X},\mathbf{Z}\,|\,\Theta) & =P(\mathbf{X}\,|\,\Theta) \tag{7.54} \end{align}$

由此，我们得到已观测数据 $\mathbf{X}$ 的对数似然（对数边际似然）。注：通过求期望（求和或求积分）来减少概率中的变量称为边际化。
$\begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X}) & =\ln P(\mathbf{X}\,|\,\Theta)\tag{7.55} \\ & =\ln \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, P(\mathbf{X},\mathbf{Z}\,|\,\Theta) %&=\ln \mathop{\sum}\limits_{\mathbf{Z}} P(\mathbf{X},\mathbf{Z}\,|\,\Theta) \tag{7.56} \end{align}$
将 $\mathbb{E}$ 改为离散的 $\sum$ 即为【西瓜书式(7.35)】。

极大似然的朴素观念：事件既然发生了，我就“猜”它是概率最大时发生的。 “事件发生”是指产生了已有的数据集，在有隐变量时，已有的数据集就是“证据” $\mathbf{X}$ ，极大（对数）似然法这时应考虑的是“证据” $\mathbf{X}$ 已发生，即采用极大（对数）边际似然，式(7.56)即

$\begin{align} {\Theta}^*=\mathop{\arg\max}\limits_{\Theta}\mathrm{LL}(\Theta\,|\,\mathbf{X}) \tag{7.57} \end{align}$

然而，式(7.56)中， $\ln$ 由于隔着 $\mathop{\mathbb{E}}\limits_{\mathbf{Z}}$ （如 $\sum$ ）不能作用于 $P(\mathbf{X},\mathbf{Z}\,|\,\Theta)$ 的分解式，故直接用式(7.57)碰到了困难，这就导致了对“强制”交换后的式子
$\begin{align} \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, \ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta) \tag{7.58} \end{align}$
的研究，从而产生了EM算法。