(《机器学习》完整版系列)第7章 贝叶斯分类器——7.8 再谈极大似然(对数边际似然)
一个样本的似然、一组同类样本的似然、整个数据集上的似然对数似然(对数边际似然):通过求期望(求和或求积分)来减少概率中的变量称为边际化。
一个样本的似然、一组同类样本的似然、整个数据集上的似然
对数似然(对数边际似然):通过求期望(求和或求积分)来减少概率中的变量称为边际化。
再谈极大似然
回顾极大似然估计MLE,我们先讨论关键概念“似然”。
(1)当关注分类时,参数视为与类别标识直接相关的,即 Θ c {\Theta}_c Θc,这时为7.3 极大似然法篇的内容,即
- 一个样本的似然: P ( x ∣ c ) P(\boldsymbol{x}\,|\,c ) P(x∣c),更一般为: P ( x ∣ Θ c ) P(\boldsymbol{x}\,|\,{\Theta}_c ) P(x∣Θc),可依属性进行分解,如,朴素贝叶斯和半朴素贝叶斯假设。
- 一组同类样本的似然:数据集 D D D的 c c c类构成子集 D c D_c Dc,则该子集的似然为 P ( D c ∣ Θ c ) P(D_c\,|\,{\Theta}_c ) P(Dc∣Θc),可依样本进行分解,得【西瓜书式(7.9)】。
(2)当并不是关注分类(如,无监督学习)时,上述参数中的下标 c c c即可去掉,特别地,这时可以在整个数据集 D D D上( D D D中可以含有重复的样本)考察“似然”
P ( D ∣ Θ ) = ∏ x ∈ D P ( x ∣ Θ ) \begin{align} P(D\,|\,\Theta )=\mathop{\prod }\limits_{\boldsymbol{x} \in D}P(\boldsymbol{x}\,|\,\Theta) \tag{7.50} \end{align} P(D∣Θ)=x∈D∏P(x∣Θ)(7.50)
其中, D = { x i } i = 1 m D=\{\boldsymbol{x}_i\}_{i=1}^m D={xi}i=1m。
似然分解成积后,易想到用对数来进行运算处理,这就是“对数似然”。
类似于上节中将 x \boldsymbol{x} x分解为证据变量集 E \boldsymbol{E} E和待查询变量集 Q \boldsymbol{Q} Q,这里改一下名称:设 x = ( E , Q ) \boldsymbol{x}=(\boldsymbol{E},\boldsymbol{Q}) x=(E,Q),其中, E \boldsymbol{E} E是观测变量集,而 Q \boldsymbol{Q} Q是未观测变量集(未观测变量称为“隐变量”)。
将 D D D视为一个矩阵(称为设计矩阵):每行为一个样本,每列为一个属性,则该矩阵大小为 m × d m\times d m×d。 现在将矩阵 D D D依观测变量集 E \boldsymbol{E} E和未观测变量集 Q \boldsymbol{Q} Q分裂成左右两个子矩阵,即 D = ( X , Z ) D=(\mathbf{X},\mathbf{Z}) D=(X,Z),则式(7.50)变为
P ( X , Z ∣ Θ ) = ∏ x ∈ ( X , Z ) P ( x ∣ Θ ) \begin{align} P(\mathbf{X},\mathbf{Z}\,|\,\Theta )=\mathop{\prod }\limits_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}P(\boldsymbol{x}\,|\,\Theta) \tag{7.51} \end{align} P(X,Z∣Θ)=x∈(X,Z)∏P(x∣Θ)(7.51)
其中, x ∈ ( X , Z ) \boldsymbol{x} \in (\mathbf{X},\mathbf{Z}) x∈(X,Z)表示 x \boldsymbol{x} x是矩阵 ( X , Z ) (\mathbf{X},\mathbf{Z}) (X,Z)的一行。
使用对数似然公式,则式(7.51)变为
L L ( Θ ∣ X , Z ) = ln P ( X , Z ∣ Θ ) = ln ∏ x ∈ ( X , Z ) P ( x ∣ Θ ) = ∑ x ∈ ( X , Z ) ln P ( x ∣ Θ ) \begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z}) & =\ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta )\tag{7.52} \\ & =\ln \mathop{\prod }\limits_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}P(\boldsymbol{x}\,|\,\Theta)\notag \\ & =\sum_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}\ln P(\boldsymbol{x}\,|\,\Theta) \tag{7.53} \end{align} LL(Θ∣X,Z)=lnP(X,Z∣Θ)=lnx∈(X,Z)∏P(x∣Θ)=x∈(X,Z)∑lnP(x∣Θ)(7.52)(7.53)
我们知道,对变量求期望可以消去该变量,如,消去隐变量
E Z P ( X , Z ∣ Θ ) = P ( X ∣ Θ ) \begin{align} \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, P(\mathbf{X},\mathbf{Z}\,|\,\Theta) & =P(\mathbf{X}\,|\,\Theta) \tag{7.54} \end{align} ZEP(X,Z∣Θ)=P(X∣Θ)(7.54)
由此,我们得到已观测数据 X \mathbf{X} X的对数似然(对数边际似然)。注:通过求期望(求和或求积分)来减少概率中的变量称为边际化。
L L ( Θ ∣ X ) = ln P ( X ∣ Θ ) = ln E Z P ( X , Z ∣ Θ ) \begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X}) & =\ln P(\mathbf{X}\,|\,\Theta)\tag{7.55} \\ & =\ln \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, P(\mathbf{X},\mathbf{Z}\,|\,\Theta) %&=\ln \mathop{\sum}\limits_{\mathbf{Z}} P(\mathbf{X},\mathbf{Z}\,|\,\Theta) \tag{7.56} \end{align} LL(Θ∣X)=lnP(X∣Θ)=lnZEP(X,Z∣Θ)(7.55)(7.56)
将 E \mathbb{E} E改为离散的 ∑ \sum ∑即为【西瓜书式(7.35)】。
极大似然的朴素观念:事件既然发生了,我就“猜”它是概率最大时发生的。 “事件发生”是指产生了已有的数据集,在有隐变量时,已有的数据集就是“证据” X \mathbf{X} X,极大(对数)似然法这时应考虑的是“证据” X \mathbf{X} X已发生,即采用极大(对数)边际似然,式(7.56)即
Θ ∗ = arg max Θ L L ( Θ ∣ X ) \begin{align} {\Theta}^*=\mathop{\arg\max}\limits_{\Theta}\mathrm{LL}(\Theta\,|\,\mathbf{X}) \tag{7.57} \end{align} Θ∗=ΘargmaxLL(Θ∣X)(7.57)
然而,式(7.56)中, ln \ln ln由于隔着 E Z \mathop{\mathbb{E}}\limits_{\mathbf{Z}} ZE(如 ∑ \sum ∑)不能作用于 P ( X , Z ∣ Θ ) P(\mathbf{X},\mathbf{Z}\,|\,\Theta) P(X,Z∣Θ)的分解式,故直接用式(7.57)碰到了困难,这就导致了对“强制”交换后的式子
E Z ln P ( X , Z ∣ Θ ) \begin{align} \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, \ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta) \tag{7.58} \end{align} ZElnP(X,Z∣Θ)(7.58)
的研究,从而产生了EM算法。
本文为原创,您可以:
- 点赞(支持博主)
- 收藏(待以后看)
- 转发(他考研或学习,正需要)
- 评论(或讨论)
- 引用(支持原创)
- 不侵权
上一篇:7.7 贝叶斯网络分类器(分类可视为一种特殊的查询)、贝叶斯网络推断(查询一组结点称为“推断”)
下一篇:7.9 EM原理的详细数学推导

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)