深度学习数学基础：概率论基础

深度学习数学基础之概率论

铭瑾熙

929人浏览 · 2024-05-07 02:25:20

铭瑾熙 · 2024-05-07 02:25:20 发布

1. 概率分布与随机变量

1.1 机器学习为什么要使用概率

事件的概率是衡量该事件发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的，但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。
机器学习除了处理不确定量，也需处理随机量。不确定性和随机性可能来自多个方面，使用概率论来量化不确定性。
概率论在机器学习中扮演着一个核心角色，因为机器学习算法的设计通常依赖于对数据的概率假设。

例如在机器学习（Andrew Ng）的课中，会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设，用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件，单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的，因为某些单词几乎总是同时出现。然而，最终结果是，这个简单的假设对结果的影响并不大，且无论如何都可以让我们快速判别垃圾邮件。

1.2 变量与随机变量有什么区别

随机变量（random variable）

表示随机现象（在一定条件下，并不总是出现相同结果的现象称为随机现象）中各种结果的实值函数（一切可能的样本点）。例如某一时间内公共汽车站等车乘客人数，电话交换台在一定时间内收到的呼叫次数等，都是随机变量的实例。
随机变量与模糊变量的不确定性的本质差别在于，后者的测定结果仍具有不确定性，即模糊性。

变量与随机变量的区别：
当变量的取值的概率不是1时,变量就变成了随机变量；当随机变量取值的概率为1时,随机变量就变成了变量。

比如：
当变量 $x$ 值为100的概率为1的话,那么 $x = 100$ 就是确定了的,不会再有变化,除非有进一步运算.
当变量 $x$ 的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。

1.3 随机变量与概率分布的联系

一个随机变量仅仅表示一个可能取得的状态，还必须给定与之相伴的概率分布来制定每个状态的可能性。用来描述随机变量或一簇随机变量的每一个可能的状态的可能性大小的方法，就是 概率分布(probability distribution).

随机变量可以分为离散型随机变量和连续型随机变量。

相应的描述其概率分布的函数是

概率质量函数(Probability Mass Function, PMF):描述离散型随机变量的概率分布，通常用大写字母 $P$ 表示。

概率密度函数(Probability Density Function, PDF):描述连续型随机变量的概率分布，通常用小写字母 $p$ 表示。

1.4 离散型随机变量和概率质量函数

PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。

一般而言， $P (x) $ 表示时 $X = x $ 的概率.
有时候为了防止混淆，要明确写出随机变量的名称 $P ($ x $= x) $
有时候需要先定义一个随机变量，然后制定它遵循的概率分布x服从 $P ($ x $) $

PMF 可以同时作用于多个随机变量，即联合概率分布(joint probability distribution) $P (X = x, Y = y)$ *表示 $X = x$ 和 $Y = y$ 同时发生的概率，也可以简写成 $P (x, y)$ .

如果一个函数 $P $ 是随机变量 $X $ 的 PMF，那么它必须满足如下三个条件

$P $ 的定义域必须是x的所有可能状态的集合
$\forall x \in $ x, $\leq P(x) \leq 1 $ .
$_{x∈X} P(x)=1$ . 我们把这一条性质称之为归一化的(normalized)

1.5 连续型随机变量和概率密度函数

如果一个函数 $p $ 是x的PDF，那么它必须满足如下几个条件

$p$ 的定义域必须是x的所有可能状态的集合。
$\forall x \in X, p (x) \geq 0$ . 注意，我们并不要求$ p(x)≤1$，因为此处 $p (x)$ 不是表示的对应此状态具体的概率，而是概率的一个相对大小(密度)。具体的概率，需要积分去求。
$\int p (x) d x = 1$ , 积分下来，总和还是1，概率之和还是1.

注：PDF $p (x)$ 并没有直接对特定的状态给出概率，给出的是密度，相对的，它给出了落在面积为 $δ x$ 的无线小的区域内的概率为$ p(x)δx$. 由此，我们无法求得具体某个状态的概率，我们可以求得的是某个状态 $x$ 落在某个区间 $[a, b]$ 内的概率为$ \int_{a}^{b}p(x)dx$.

1.6 举例理解条件概率

条件概率公式如下：
$P(A\cap B) / P(B)$
说明：在同一个样本空间 $Ω\Omega$ 中的事件或者子集 $A$ 与 $B$ ，如果随机从 $Ω\Omega$ 中选出的一个元素属于 $B$ ，那么下一个随机选择的元素属于 $A$ 的概率就定义为在 $B$ 的前提下 $A$ 的条件概率。条件概率文氏图示意如图1.1所示。

图1.1 条件概率文氏图示意

根据文氏图，可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是 $P(A⋂B)P(A\bigcap B)$ 除以 $P (B)$ 。
举例：一对夫妻有两个小孩，已知其中一个是女孩，则另一个是女孩子的概率是多少？（面试、笔试都碰到过）
穷举法：已知其中一个是女孩，那么样本空间为男女，女女，女男，则另外一个仍然是女生的概率就是1/3。
条件概率法： $P (女 ∣ 女) = P (女女) / P (女)$ ,夫妻有两个小孩，那么它的样本空间为女女，男女，女男，男男，则 $P (女女)$ 为1/4， $P （女） = 1 - P (男男) = 3/4$ ,所以最后 $1/3$ 。
这里大家可能会误解，男女和女男是同一种情况，但实际上类似姐弟和兄妹是不同情况。

1.7 联合概率与边缘概率联系区别

区别：
联合概率：联合概率指类似于 $P (X = a, Y = b)$ 这样，包含多个条件，且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
边缘概率：边缘概率是某个事件发生的概率，而与其它事件无关。边缘概率指类似于 $P (X = a)$ ， $P (Y = b)$ 这样，仅与单个随机变量有关的概率。

联系：
联合分布可求边缘分布，但若只知道边缘分布，无法求得联合分布。

1.8 条件概率的链式法则

由条件概率的定义，可直接得出下面的乘法公式：
乘法公式设 $A, B$ 是两个事件，并且 $P (A) > 0$ , 则有
$P (A B) = P (B ∣ A) P (A)$
推广
$P (A BC) = P (C ∣ A B) P (B ∣ A) P (A)$
一般地，用归纳法可证：若 $P(A_1A_2...A_n)>0$ ，则有
$P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1})P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1) =P(A_1)\prod_{i=2}^{n}P(A_i|A_1A_2...A_{i-1})$
任何多维随机变量联合概率分布，都可以分解成只有一个变量的条件概率相乘形式。

1.9 独立性和条件独立性

独立性
两个随机变量 $x$ 和 $y$ ，概率分布表示成两个因子乘积形式，一个因子只包含 $x$ ，另一个因子只包含 $y$ ，两个随机变量相互独立(independent)。
条件有时为不独立的事件之间带来独立，有时也会把本来独立的事件，因为此条件的存在，而失去独立性。
举例： $P (X Y) = P (X) P (Y)$ , 事件 $X$ 和事件 $Y$ 独立。此时给定 $Z$ ，
$\not = P(X|Z)P(Y|Z)$
事件独立时，联合概率等于概率的乘积。这是一个非常好的数学性质，然而不幸的是，无条件的独立是十分稀少的，因为大部分情况下，事件之间都是互相影响的。

条件独立性
给定 $Z$ 的情况下, $X$ 和 $Y$ 条件独立，当且仅当
$X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)$
$X$ 和 $Y$ 的关系依赖于 $Z$ ，而不是直接产生。

举例定义如下事件：
$X$ ：明天下雨；
$Y$ ：今天的地面是湿的；
$Z$ ：今天是否下雨；
$Z$ 事件的成立，对 $X$ 和 $Y$ 均有影响，然而，在 $Z$ 事件成立的前提下，今天的地面情况对明天是否下雨没有影响。

2 常见概率分布

2.1 Bernoulli分布

Bernoulli分布(伯努利分布，0-1分布)是单个二值随机变量分布, 单参数 $ϕ\phi$ ∈[0,1]控制, $ϕ\phi$ 给出随机变量等于1的概率. 主要性质有:
$\begin{align*} P(x=1) &= \phi \\ P(x=0) &= 1-\phi \\ 概率质量函数：P(x=x) &= \phi^x(1-\phi)^{1-x} \\ \end{align*}$
其期望和方差为：
$\begin{align*} E_x[x] &= \phi \\ Var_x(x) &= \phi{(1-\phi)} \end{align*}$
适用范围: 伯努利分布适合对离散型随机变量建模.

Multinoulli分布也叫范畴分布, 是单个k值随机分布,经常用来表示对象分类的分布. 其中 $k$ 是有限值.Multinoulli分布由向量 $p⃗∈[0,1]k−1\vec{p}\in[0,1]^{k-1}$ 参数化,每个分量 $p_i$ 表示第 $i$ 个状态的概率, 且 $p_k=1-1^Tp$ .这里 $1^T$ 表示元素全为1的列向量的转置，其实就是对于向量p中除了k的概率之和。可以重写为 $pk=1−∑0k−1pip_k=1-\sum_{0}^{k-1}p_i$ 。

补充二项分布、多项分布：

二项分布，通俗点硬币抛多次。二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。

多项式分布(Multinomial Distribution)是二项式分布的推广。二项式做n次伯努利实验，规定了每次试验的结果只有两个，如果现在还是做n次试验，只不过每次试验的结果可以有多m个，且m个结果发生的概率互斥且和为1，则发生其中一个结果X次的概率就是多项式分布。

2.2 高斯分布

高斯也叫正态分布(Normal Distribution), 概率度函数如下:
$N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )$
其中, $μ\mu$ 和 $σ\sigma$ 分别是均值和标准差, 中心峰值x坐标由 $μ\mu$ 给出, 峰的宽度受 $σ\sigma$ 控制, 最大点在 $x=μx=\mu$ 处取得, 拐点为 $x=μ±σx=\mu\pm\sigma$

正态分布中，±1 $σ\sigma$ 、±2 $σ\sigma$ 、±3 $σ\sigma$ 下的概率分别是68.3%、95.5%、99.73%，这3个数最好记住。

此外, 令 $μ=0,σ=1\mu=0,\sigma=1$ 高斯分布即简化为标准正态分布:
$N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right )$
对概率密度函数高效求值:
$N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)$

其中， $β=1σ2\beta=\frac{1}{\sigma^2}$ 通过参数 $β∈（0，∞）\beta∈（0，\infty）$ 来控制分布精度。

2.3 何时采用正态分布

问: 何时采用正态分布?
答: 缺乏实数上分布的先验知识, 不知选择何种形式时, 默认选择正态分布总是不会错的, 理由如下:

中心极限定理告诉我们, 很多独立随机变量均近似服从正态分布, 现实中很多复杂系统都可以被建模成正态分布的噪声, 即使该系统可以被结构化分解.
正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.

正态分布的推广:
正态分布可以推广到 $R^n$ 空间, 此时称为多位正态分布, 其参数是一个正定对称矩阵 $Σ\Sigma$ :
$N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)$
对多为正态分布概率密度高效求值:
$N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)$
此处， $β⃗\vec\beta$ 是一个精度矩阵。

2.4 指数分布

深度学习中, 指数分布用来描述在 $x = 0$ 点处取得边界点的分布, 指数分布定义如下:
$p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})$
指数分布用指示函数 $Ix≥0I_{x\geq 0}$ 来使 $x $ 取负值时的概率为零。

2.5 Laplace 分布（拉普拉斯分布）

一个联系紧密的概率分布是 Laplace 分布（Laplace distribution），它允许我们在任意一点 $μ\mu$ 处设置概率质量的峰值
$Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)$

2.6 Dirac分布和经验分布

Dirac分布可保证概率分布中所有质量都集中在一个点上. Diract分布的狄拉克 $δ\delta$ 函数(也称为单位脉冲函数)定义如下:
$p(x)=\delta(x-\mu), x\neq \mu$

$\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b$

Dirac 分布经常作为经验分布（empirical distribution）的一个组成部分出现
$p^(x⃗)=1m∑i=1mδ(x⃗−x⃗(i)) \hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})$
, 其中, m个点 $x^{1},...,x^{m}$ 是给定的数据集, 经验分布将概率密度 $1m\frac{1}{m}$ 赋给了这些点.

当我们在训练集上训练模型时, 可以认为从这个训练集上得到的经验分布指明了采样来源.

适用范围: 狄拉克δ函数适合对连续型随机变量的经验分布.

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

LLM应用开发七：Agent进阶

2025年，AI将从‘会说话’进化到‘会干活’。AI智能体（AI Agent）不再是简单的聊天机器人，而是能够感知环境、规划任务、调用工具并主动推进目标的‘数字员工’。本文将系统性拆解AI智能体的完整知识体系，从核心认知架构到企业级落地细节，深入探讨规划算法、记忆系统和工具使用的关键技术，并展示如何在电商客服等高频场景中实现‘Agent+RAG+长期记忆’的落地流程。