机器学习--＞贝叶斯网络

村头陶员外

1430人浏览 · 2017-09-29 11:07:47

村头陶员外 · 2017-09-29 11:07:47 发布

本篇博文主要总结贝叶斯网络相关知识。

复习之前的知识点

相对熵

相对熵，又称互熵，交叉熵，鉴别信息， $K u l l b a c k$ 熵， $K u l l b a c k - L e i b l e$ 散度等。

设 $p (x) 、 q (x)$ 是 $X$ 中取值的两个概率分布，则 $p$ 对 $q$ 的相对熵是 :
$D(p∣∣q)=∑xp(x)logp(x)q(x)=Ep(x)logp(x)q(x)D(p||q)=\sum_{x}^{}p(x)log\frac{p(x)}{q(x)}={E}_{p(x)}log\frac{p(x)}{q(x)}$

相对熵可以度量两个随机变量的“距离”。
一般的， $D(p∣∣q)≠D(q∣∣p)D(p||q)\neq D(q||p)$ 。
$D(p∣∣q)≥0，D(q∣∣p)≥0D(p||q)\geq 0，D(q||p)\geq 0$ 。

互信息

两个随机变量 $X ， Y$ 的***互信息***，定义为 $X ， Y$ 的***联合分布和独立分布乘积的相对熵***。
$I (X, Y) = D (P (X, Y) ∣ ∣ P (x) P (Y)$
$I(X,Y)=∑x,yP(x,y)logP(x,y)p(x)p(y)I(X,Y)=\sum_{x,y}^{}P(x,y)log\frac{P(x,y)}{p(x)p(y)}$

显然当 $X, Y$ 互相独立时， $P (X, Y) = P (X) P (Y)$ 这个时候， $X, Y$ 距离最短，互信息为零。

信息增益

信息增益表示得知特征 $A$ 的信息而使得类 $X$ 的信息的不确定性减少的程度。

定义：特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即：
$g (D, A) = H (D) - H (D ∣ A)$

对于两个随机变量 $X, Y$ ，关于熵和互信息的一些总结公式：

$H (Y ∣ X) = H (X, Y) - H (X)$
$H (Y ∣ X) = H (Y) - I (X, Y)$
$H (Y ∣ X) < H (Y)$
$H (X ∣ Y) < H (X)$
$I (X, Y) = H (X) + H (Y) - H (X, Y)$

显然，这即为训练数据集 $D$ 和特征 $A$ 的互信息。

贝叶斯公式和最大后验估计

贝叶斯估计是一种生成式模型。所谓生成式和判别式模型的区别在于：

通过 $P (y ∣ x)$ 直接得出的模型称为判别式模型。
$P (y ∣ x)$ 是由 $P (x ∣ y)$ 得出的模型叫做生成式模型，也就是在类别已知的情况下，样本是怎么生成出来的。

$P(A∣D)=P(D∣A)p(D)P(A|D)=\frac{P(D|A)}{p(D)}$

给定某些样本 $D$ ，在这些样本中计算某结论 $A 1 、 A 2 \dots \dots A n$ 出现的概率，即 $P (A i ∣ D)$ 。

这里写图片描述

第一个等式：贝叶斯公式；
第二个等式：样本给定，则对于任何 $A i, P (D)$ 是常数，即分母仅为归一化因子
第三个箭头：若这些结论 $A 1 、 A 2 \dots \dots A n$ 的先验概率相等 (或近似)，***即 $P({A}_{1})=P({A}_{2})=...P({A}_{n})$ ***，则得到最后一个等式：即第二行的公式，这时候其实是转成了求最大似然估计。

朴素贝叶斯

朴素贝叶斯的假设

一个特征出现的概率，与其他特征(条件)独立 (特征独立性)

其实是：对于给定分类的条件下，特征独立

每个特征***同等重要***(特征均衡性)

朴素贝叶斯的推导

朴素贝叶斯(Naive Bayes，NB)是基于“特征之间是独立的”这一朴素假设，应用贝叶斯定理的***监督学习*** 算法。

对于给定的特征向量 ${X}_{1},{X}_{2},...,{X}_{n}$

类别 $y$ 的概率可以根据贝叶斯公式得到：

这里写图片描述

使用朴素的***独立性*** 假设：
$P({x}_{i}|y,{x}_{1},...,{x}_{i-1},{x}_{i+1},...,{x}_{n})=P({x}_{i}|y)$

类别 $y$ 的概率可简化为：
$P(y∣x1,x2,..,xn)=P(y)P(x1,x2,...,xn∣y)p(x1,x2,...,xn)=P(y)∏i=1nP(xi∣y)p(x1,x2,...,xn)P(y|{x}_{1},{x}_{2},..,{x}_{n})=\frac{P(y)P({x}_{1},{x}_{2},...,{x}_{n}|y)}{p({x}_{1},{x}_{2},...,{x}_{n})}=\frac{P(y)\prod_{i=1}^{n}P({x}_{i}|y)}{p({x}_{1},{x}_{2},...,{x}_{n})}$

在给定样本的前提下， $p({x}_{1},{x}_{2},...,{x}_{n})$ 是常数：
$P(y∣x1,x2,...,xn)∝P(y)∏i=1nP(xi∣y)P(y|{x}_{1},{x}_{2},...,{x}_{n})\propto P(y)\prod_{i=1}^{n}P({x}_{i}|y)$

从而：
$y^=arg maxP(y)∏i=1nP(xi∣y)\hat{y}=arg\ maxP(y)\prod_{i=1}^{n}P({x}_{i}|y)$

以上就是朴素贝叶斯通用化的推导，所有的朴素贝叶斯都可以这样推导出来。

根据样本使用 $M A P (M a x i m u m A P o s t e r i o r i)$ 估计 $P (y)$ ，建立合理的模型估计 $P({x}_{i}|y)$ ，从而得到样本的类别。 $y^=arg maxP(y)∏i=1nP(xi∣y)\hat{y}=arg\ maxP(y)\prod_{i=1}^{n}P({x}_{i}|y)$

高斯朴素贝叶斯

假设特征服从高斯分布，即：

这里写图片描述

参数使用 $M L E$ （最大似然估计）估计即可。

多项分布朴素贝叶斯

假设特征服从多项分布，从而，对于每个类别y，参数为 $θy=(θy1,θy2,θy2,...,θyn){\theta }_{y}=({\theta }_{y1},{\theta }_{y2},{\theta }_{y2},...,{\theta }_{yn})$ ，其中 $n$ 为特征的数目， $P({x}_{i}|y)$ 的概率为 $,θyi,{\theta }_{yi}$ 。

参数 $θyi{\theta }_{yi}$ 使用 $M L E$ 估计的结果为：

这里写图片描述

假定训练集为 $T$ ，有:

这里写图片描述

其中：

$α=1\alpha =1$ 称为 $L a p l a c e$ 平滑。
$α<1\alpha <1$ 称为 $L i d s t o n e$ 平滑。
平滑操作除了避免出现零，还有增加模型的泛化能力的作用。

以文本分类为例

问题描述

样本： $1000$ 封邮件，每个邮件被标记为垃圾邮件或者非垃圾邮件。
分类目标：给定第 $1001$ 封邮件，确定它是垃圾邮件还是非垃圾邮件。
方法：朴素贝叶斯

问题分析

类别 $c$ ：垃圾邮件 $c 1$ ，非垃圾邮件 $c 2$ 。
词汇表，两种建立方法：

使用现成的单词词典；
将所有邮件中出现的单词都统计出来，得到词典。

记单词数目为 $N$ 。

将每个邮件 $m$ 映射成维度为 $N$ 的向量 $x$ 。

若单词 $w i$ 在邮件 $m$ 中出现过，则 $x i = 1$ ，否则， $x i = 0$ 。即邮件的向量化： $m = (x 1, x 2 \dots \dots x N)$

贝叶斯公式： $P (c ∣ x) = P (x ∣ c) * P (c) / P (x)$ ，注意这里 $x$ 是向量。

特征条件独立假设 ： $P (x ∣ c) = P (x 1, x 2 \dots x N ∣ c) = P (x 1 ∣ c) * P (x 2 ∣ c) \dots P (x N ∣ c)$

特征独立假设： $P (x) = P (x 1, x 2 \dots x N) = P (x 1) * P (x 2) \dots P (x N)$

带入公式： $P (c ∣ x) = P (x ∣ c) * P (c) / P (x)$
实际情况下，不需要考虑 $P (x)$ ，故只剩下***特征条件独立假设***。

等式右侧各项的含义：

$P (x i ∣ c j)$ ：在 $c j$ (此题目， $c j$ 要么为垃圾邮件1，要么为非垃圾邮件2)的前提下，第 $i$ 个单词 $x i$ 出现的概率。
$P (x i)$ ：在所有样本中，单词 $x i$ 出现的概率。
$P (c j)$ ：在所有样本中，邮件类别 $c j$ 出现的概率。

由上面例子可以看出，朴素贝叶斯基于以下两条假设：

一个特征出现的概率，与其他特征(条件)独立(特征独立性)，即是：对于给定分类的条件下，特征独立。
每个特征同等重要(特征均衡性) 。

以上两条假设不一定正确，但是基于这两条假设的朴素贝叶斯在一些应用中效果却是不错的。

贝叶斯网络

把某个研究系统中涉及的随机变量，根据是否***条件独立*** 绘制在一个***有向图*** 中，就形成了贝叶斯网络。

贝叶斯网络( $B a y e s i a n N e t w o r k$ )，又称有向无环图模型 $model,DAG)(directed\ acyclic\ graphical\ model ,DAG)$ ，是一种概率图模型，根据概率图的拓扑结构，考察一组随机变量 ${X1,X2...Xn}$ 及其 $n$ 组条件概率分布
$Distributions,CPD)(Conditional\ Probability\ Distributions, CPD)$ 的性质。

一般而言，贝叶斯网络的有向无环图中的节点表示随机变量，它们可以是可观察到的变量，或隐变量、未知参数等。连接两个节点的箭头代表此两个随机变量是具有***因果关系(或非条件独立***)。若两个节点间以一个单箭头连接在一起，表示其中一个节点是“因 $(p a r e n t s)$ ”，另一个是“果 $(c h i l d r e n)$ ”，两节点就会产生一个条件概率值。

每个结点在给定其直接前驱时，条件独立 于其非后继。

一个简单的贝叶斯网络

$P (a, b, c) = P (c ∣ a, b) P (b ∣ a) P (a)$ ，其对应的无向图如下：

![这里写图片描述](https://img-blog.csdnimg.cn/img_convert/5abf3a46467d427ac4a5628231052592.png)

$P({x}_{1},{x}_{2},{x}_{3},{x}_{4}|y)=P({x}_{1}|y)*P({x}_{2}|y)*P({x}_{3}|y)*P({x}_{4}|y)$ ，其对应的无向图如下：

这里写图片描述

朴素贝叶斯就是把特征 $(x 1, x 2, x 3, x 4)$ 之间的有向边都删掉了。

全连接贝叶斯网络

每一对结点之间都有边连接：

这里写图片描述

一个“正常”的贝叶斯网络：

这里写图片描述

有些边缺失
直观上：
$x 1$ 和 $x 2$ 独立
$x 6$ 和 $x 7$ 在 $x 4$ 给定的条件下独立
$x 1, x 2, \dots x 7$ 的联合分布：

这里写图片描述

对一个实际贝叶斯网络的分析：

这里写图片描述

贝叶斯网络的形式化定义

$B N (G, Θ)$

G:有向无环图
G的结点：随机变量
G的边：结点间的***有向依赖***
Θ：所有条件概率分布的参数集合
结点 $X$ 的条件概率： $P (X ∣ p a r e n t (X))$

通过贝叶斯网络判定条件独立—1

这里写图片描述

根据图模型，得： $P (a, b, c) = P (c) * P (a ∣ c) * P (b ∣ c)$
从而： $P (a, b, c) / P (c) = P (a ∣ c) * P (b ∣ c)$
因为 $P (a, b ∣ c) = P (a, b, c) / P (c)$
得： $P (a, b ∣ c) = P (a ∣ c) * P (b ∣ c)$

即：在 $c$ 给定的条件下， $a ， b$ 被阻断 $(b l o c k e d)$ 是独立的。

通过贝叶斯网络判定条件独立—2

$P (a, b, c) = P (a) * P (c ∣ a) * P (b ∣ c)$

这里写图片描述

即：在 $c$ 给定的条件下， $a ， b$ 被阻断(blocked)，是独立的。

通过贝叶斯网络判定条件独立—3

这里写图片描述

在 $c$ 未知的条件下， $a ， b$ 被阻断(blocked)，是独立的： head-to-head

以上三种情况的举例说明：

这里写图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

多智能体架构与模型上下文协议（MCP）全景规划方案

在“工业大模型 × 数字孪生 × 具身智能”深度交织的认知型智能制造系统（SoI）架构下，多智能体架构（Multi-Agent Architecture）与模型上下文协议（Model Context Protocol, MCP）的缝合，已成为硬科技离散制造与高端装备全生命周期服务（AI-PSS）中，打通工业异构多模态数据、消灭大模型长尾幻觉并保障工业级确定性安全反控的最新标准。

DAMO开发者矩阵

使用概率图路径规划的机器人路径规划研究Octave（Matlab代码实现）

针对复杂未知环境下传统机器人路径规划算法适应性差、避障稳定性弱、全局搜索效率低的问题，本文开展基于概率图的机器人路径规划方法研究。概率图路径规划依托概率路线图建模思想，通过环境随机采样、节点连通性构建、最优路径检索的核心逻辑，摆脱了传统算法对环境精准建模的依赖，具备强环境适配性与高运算效率。本文系统阐述概率图路径规划的核心理论、运行机制与技术优势，基于Octave仿真平台搭建多场景机器人运动规划仿

DAMO开发者矩阵

多智能体架构与模型上下文协议（MCP）

在“工业大模型 × 数字孪生 × 具身智能”深度交织的认知型智能制造系统（SoI）中，多智能体架构（Multi-Agent Architecture）与模型上下文协议（Model Context Protocol, MCP）的融合，已成为 2026 年离散制造与高端装备全生命周期服务（AI-PSS）中打通工业异构多模态数据、消灭 AI 幻觉并保障工业级确定性安全反控的绝对硬核标准 [2026年趋势