机器学习_3朴素贝叶斯

机器学习_朴素贝叶斯贝叶斯方法——背景知识：贝叶斯分类、朴素贝叶斯原理：判别模型和生成模型、朴素贝叶斯的基本假设——条件独立朴素贝叶斯案例代码实现

奥瑞给给~~

200人浏览 · 2022-02-22 20:48:35

奥瑞给给~~ · 2022-02-22 20:48:35 发布

机器学习_朴素贝叶斯

贝叶斯方法——背景知识
朴素贝叶斯原理
- 判别模型和生成模型
- 朴素贝叶斯原理
朴素贝叶斯案例——文本分类
朴素贝叶斯代码实现

贝叶斯方法——背景知识

贝叶斯分类：

贝叶斯分类是一类分类算法的总称。这类算法以贝叶斯定理为基础，故统称为贝叶斯分类。而朴素贝叶斯是贝叶斯分类中的最简单常见的一种分类方法。

用到的概率论基础知识：

在这里插入图片描述

贝叶斯定理

在这里插入图片描述

朴素贝叶斯原理

判别模型和生成模型

监督学习方法分为生成方法和判别方法；所学到的模型分为生成模型和判别模型。
在这里插入图片描述
朴素贝叶斯是生成学习方法（详细见图片右边），概率估计方法可以是极大似然估计或贝叶斯估计。

朴素贝叶斯的基本假设——条件独立性。
在这里插入图片描述
该假设使得朴素贝叶斯的学习与预测大为简化，高效易于实现；缺点是分类性能不一定很高。

朴素贝叶斯原理

朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。
在这里插入图片描述

朴素贝叶斯案例——文本分类

样例：
在这里插入图片描述

拉普拉斯平滑 ——避免出现概率为0的情况

在这里插入图片描述

朴素贝叶斯代码实现

最常用GaussianNB高斯贝叶斯分类器。

在这里插入图片描述
数据准备

import numpy as np
import pandas as pd
from sklearn.datasets import load_iris # 内置数据集
from sklearn.model_selection import train_test_split
from collections import Counter
import math

# data 数据准备
def create_data():
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['label'] = iris.target
    df.columns = [
        'sepal length', 'sepal width', 'petal length', 'petal width', 'label'
    ]
    data = np.array(df.iloc[:100, :])
    print(data)
    # [[5.1 3.5 1.4 0.2 0. ]
    #  [4.9 3.  1.4 0.2 0. ]
    #  ......
    #  [5.1 2.5 3.  1.1 1. ]
    #  [5.7 2.8 4.1 1.3 1. ]]
    print(df.head())
    #    sepal length  sepal width  petal length  petal width  label
    # 0           5.1          3.5           1.4          0.2      0
    # 1           4.9          3.0           1.4          0.2      0
    # 2           4.7          3.2           1.3          0.2      0
    # 3           4.6          3.1           1.5          0.2      0
    # 4           5.0          3.6           1.4          0.2      0
    return data[:, :-1], data[:, -1]

X, y = create_data()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3) # 训练集70%，测试集30%
print(X_test[0], y_test[0])
# [6.7 3.1 4.7 1.5] 1.0

法一）高斯朴素贝叶斯

# 高斯朴素贝叶斯
class NaiveBayes:
    def __init__(self):
        self.model = None

    # 数学期望
    @staticmethod
    def mean(X):
        return sum(X) / float(len(X))

    # 标准差（方差）
    def stdev(self, X):
        avg = self.mean(X)
        return math.sqrt(sum([pow(x - avg, 2) for x in X]) / float(len(X)))

    # 概率密度函数
    def gaussian_probability(self, x, mean, stdev):
        exponent = math.exp(-(math.pow(x - mean, 2) /
                              (2 * math.pow(stdev, 2))))
        return (1 / (math.sqrt(2 * math.pi) * stdev)) * exponent

    # 处理X_train
    def summarize(self, train_data):
        summaries = [(self.mean(i), self.stdev(i)) for i in zip(*train_data)]
        return summaries

    # 分类别求出数学期望和标准差
    def fit(self, X, y):
        labels = list(set(y))
        data = {label: [] for label in labels}
        for f, label in zip(X, y):
            data[label].append(f)
        self.model = {
            label: self.summarize(value)
            for label, value in data.items()
        }
        return 'gaussianNB train done!'

    # 计算概率
    def calculate_probabilities(self, input_data):
        # summaries:{0.0: [(5.0, 0.37),(3.42, 0.40)], 1.0: [(5.8, 0.449),(2.7, 0.27)]}
        # input_data:[1.1, 2.2]
        probabilities = {}
        for label, value in self.model.items():
            probabilities[label] = 1
            for i in range(len(value)):
                mean, stdev = value[i]
                probabilities[label] *= self.gaussian_probability(
                    input_data[i], mean, stdev)
        return probabilities

    # 类别
    def predict(self, X_test):
        # {0.0: 2.9680340789325763e-27, 1.0: 3.5749783019849535e-26}
        label = sorted(self.calculate_probabilities(X_test).items(),
                       key=lambda x: x[-1])[-1][0]
        return label

    def score(self, X_test, y_test):
        right = 0
        for X, y in zip(X_test, y_test):
            label = self.predict(X)
            if label == y:
                right += 1

        return right / float(len(X_test))

model = NaiveBayes()
model.fit(X_train, y_train)
print(model.predict([4.4,  3.2,  1.3,  0.2]))
# 0.0
print(model.score(X_test, y_test))
# 1.0

法二）scikit-learn实例

# scikit-learn实例
from sklearn.naive_bayes import GaussianNB, BernoulliNB, MultinomialNB
# 高斯模型、伯努利模型和多项式模型
clf = GaussianNB()
clf.fit(X_train, y_train)
print(clf.predict([[4.4,  3.2,  1.3,  0.2]]))
# [0.]
print(clf.score(X_test, y_test))
# 1.0

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

VLAW：视觉-语言-行动策略和世界模式的迭代式协同-改进

DAMO开发者矩阵

2026年CSDN与AI技术趋势前瞻

除ChatGPT类应用外，CSDN可能探讨代码生成（如GitHub Copilot）、3D内容生成等工具的集成开发案例。轻量化模型（如TinyML）部署到物联网设备的教程将增多，涉及TensorFlow Lite、ONNX Runtime等框架的优化技巧。CSDN内容可能聚焦行业定制化AI，如医疗影像分析、金融风控模型、智能制造预测维护等。随着法规完善，模型可解释性、数据隐私保护（如联邦学习）的技