统计学习方法---朴素贝叶斯

P(y)：通过计算每个类别在训练数据中的频率来估计。它反映了在没有任何特征信息的情况下，样本属于某一类别的可能性。

2403_88150975

887人浏览 · 2025-04-20 19:59:44

2403_88150975 · 2025-04-20 19:59:44 发布

朴素贝叶斯分类方法的基本原理

1. 贝叶斯定理的回顾

贝叶斯定理（Bayes' Theorem）是统计学中一种非常重要的工具，它为我们提供了一种根据已知数据推断未知数据的方法。在机器学习中，贝叶斯定理被广泛应用于分类模型中。其数学公式为：

其中，公式中的各个部分代表了：

P(y∣x)：后验概率，即在观察到输入数据 x 后，属于类别 y 的概率。

P(x∣y)：似然函数，表示在类别 y下，观察到数据 x的概率。

P(y)：先验概率，表示在没有观察到 x 的情况下，类别 y 的概率。

P(x)：证据，也就是输入数据的总概率。这个值在求解时常常会被省略，因为它对于后验概率的大小比较没有影响（它对所有类别是常数）。

贝叶斯定理的核心思想是：通过已知的先验信息 P(y)P(y)P(y) 和观察到的数据 x\mathbf{x}x 来更新我们的信念，从而推断出在给定数据情况下，某个类别 yyy 的可能性（即后验概率）。

2. 朴素贝叶斯假设

朴素贝叶斯分类器的关键假设是 特征条件独立性假设。也就是说，朴素贝叶斯假设所有特征 x1,x2,…,xn, 在给定类别 y 的条件下是相互独立的。这个假设显著简化了计算，使得模型能够在有限的计算资源下高效地进行训练和预测。

在贝叶斯定理中，我们有：

由于假设特征条件独立性，这个条件概率 P(x1,x2,…,xn∣y)可以拆解为：

这意味着，我们不需要计算多个特征联合出现的复杂概率，而是可以将每个特征独立计算，然后将它们的概率相乘。这样，计算量大大减少。

例子：

假设我们要根据一组特征（如身高、体重、年龄等）来预测一个人的疾病类别。朴素贝叶斯假设这些特征在给定疾病类别的条件下是独立的.这样，特征之间的相关性就被忽略了，计算变得简单。

3. 朴素贝叶斯分类决策规则

在朴素贝叶斯中，我们的目标是 根据输入数据 x=(x1,x2,…,xn) 来预测类别 y。根据贝叶斯定理，我们通过计算每个类别 yyy 的后验概率来决定最有可能的类别。

首先，贝叶斯定理给出的后验概率是：

$P(y|x)=P(x|y)P(y)P(x)P(y|\mathbf{x}) = \frac{P(\mathbf{x}|y) P(y)}{P(\mathbf{x})}P(y|\widehat{}x)=P(x)P(x|y)P(y)$

我们关心的是哪个类别的后验概率最大，因此，决策规则是选择使得 $P(y|x)P(y|\mathbf{x})P(y|x)$ 最大的类别 yyy：

因为 P(x)P(\mathbf{x})P(x) 对所有类别是常数，通常我们会忽略它，从而简化为：

更进一步，通常我们使用对数形式来避免数值溢出：

然后，选择对数后验概率最大的类别作为预测结果：

4. 朴素贝叶斯的优点

朴素贝叶斯模型有以下几个优点：

计算简单：由于条件独立性假设，计算量较小，适合处理大规模数据集。

效率高：训练过程简单，只需要估计先验概率和特征条件概率，因此训练时间短。

良好的性能：即使特征之间有一定的相关性，朴素贝叶斯在许多实际应用中仍然能取得不错的结果，尤其是在 文本分类 和 垃圾邮件过滤 等问题中表现尤为出色。

5. 朴素贝叶斯的缺点

朴素贝叶斯的缺点主要有：

特征独立性假设过于简单：很多现实中的问题，特征之间并非完全独立，朴素贝叶斯可能无法捕捉到这种依赖关系，导致分类性能下降。

对于特征之间有较强相关性的情况效果差：例如，在图像分类、语音识别等领域，特征之间可能存在较强的依赖关系，这时朴素贝叶斯的效果就会大打折扣。

无法处理特征之间的交互信息：在一些需要捕捉特征之间复杂关系的任务中，朴素贝叶斯可能无法得到良好的效果。

朴素贝叶斯分类器的训练与参数估计

1. 训练朴素贝叶斯分类器的目标

朴素贝叶斯分类器是通过基于训练数据的 概率推断 来预测新样本的类别。目标是通过学习训练数据中每个类别的 先验概率 和每个特征的 条件概率 来构建模型。

2. 先验概率的估计

先验概率P(y)：

先验概率 是指在没有任何特征输入的情况下，某个类别 y 出现的概率。它是基于训练数据中每个类别的频率进行估计的。
设训练集 D={(x1,y1),(x2,y2),…,(xm,ym)}，其中 xi 是输入特征，yi 是类别标签。类别 y 的先验概率 P(y)就是类别 y在所有样本中出现的频率，即：

具体计算：如果有 n 个样本，其中有 nyn 个样本属于类别 y，则

这个先验概率 P(y) 的计算很简单，主要基于训练集中各个类别的频率。

3. 条件概率的估计

条件概率 P(xi∣y)：

条件概率 P(xi∣y) 是在已知类别 y 的情况下，特征 xi的值出现的概率。朴素贝叶斯假设 特征独立，即各个特征在类别 y 给定的情况下是条件独立的。因此，模型只需要估计每个特征 xi 在类别 yy下的条件概率 P(xi∣y)
离散特征：假设每个特征是离散的（例如颜色、形状等类别变量），我们可以通过统计每个特征值在各个类别下出现的频率来估计条件概率。对于特征 xi和类别 y，条件概率可以表示为：