深入浅出伯努利分布:从 0‑1 随机世界到统计学习基石

“当你能把一个问题拆解成一系列“是/否”答案时,伯努利分布就是第一块砖。”


目录

  1. 引言:伯努利分布为何如此重要?
  2. 历史回顾:从赌博到信息论
  3. 形式化定义与基本表示
  4. 三种视角下的推导
    • 4.1 样本空间法
    • 4.2 最大熵原理
    • 4.3 二项分布特例
  5. 核心数学性质
    • 5.1 概率质量函数 (PMF)
    • 5.2 累积分布函数 (CDF)
    • 5.3 矩与中心矩
    • 5.4 偏度、峰度
    • 5.5 矩生成函数 (MGF) 与特征函数 (CF)
    • 5.6 熵、交叉熵与 KL 散度
  6. 指数族与共轭先验
  7. 参数估计与区间估计
    • 7.1 最大似然估计 (MLE)
    • 7.2 方法矩估计 (MoM)
    • 7.3 贝叶斯更新 (Beta 共轭)
    • 7.4 置信区间:Wald、Wilson、Clopper–Pearson
  8. 假设检验与检验功效
  9. 与其他分布的关系
  10. 典型应用场景
  11. 常见误区与 FAQ
  12. 思维导图全景
  13. 小结与延伸阅读

1. 引言:伯努利分布为何如此重要?

  • 最原始的“是否”问题:电子邮件是否为垃圾邮件?零件是否合格?用户是否点击广告?
  • 基础地位:伯努利分布是离散分布王国的砖石基石,所有二项分布、几何分布、负二项分布及二分类模型都由它延伸。
  • 机器学习核心:在深度学习中,二分类的交叉熵损失函数就是建立在伯努利假设之上。
  • 信息论根基:Shannon 熵在二元信源下自然归结为伯努利熵。

理解伯努利分布,等于理解“二分类随机现象”的所有奥秘。


2. 历史回顾:从赌博到信息论

  • 1713:Jakob Bernoulli 首次研究“伯努利试验”(两种结果随机试验)。
  • 19 世纪:Poisson、De Morgan 等将其深入到二项分布与泊松极限。
  • 1948:Claude Shannon 用二元信源推导信息熵公式,伯努利分布成为信息论的原点。
  • 现代:从 A/B 测试到神经网络,伯努利分布的身影无处不在。

3. 形式化定义与基本表示

伯努利随机变量 X X X 仅取值 { 0 , 1 } \{0,1\} {0,1},记作

X ∼ B e r n o u l l i ( p ) X \sim \mathrm{Bernoulli}(p) XBernoulli(p)

  • P ( X = 1 ) = p P(X=1)=p P(X=1)=p(“成功”概率);
  • P ( X = 0 ) = 1 − p P(X=0)=1-p P(X=0)=1p(“失败”概率);
  • 参数 p ∈ [ 0 , 1 ] p\in[0,1] p[0,1],代表单次试验的期望值: E [ X ] = p E[X]=p E[X]=p

统一写法(指数族形式):
[
P(X=x)=px,(1-p){1-x},\quad x\in{0,1}.
]


4. 三种视角下的推导

4.1 样本空间法

  • 样本空间 Ω = { ω 0 , ω 1 } \Omega=\{\omega_0,\omega_1\} Ω={ω0,ω1},分别指“失败”和“成功”。
  • 赋予 P ( ω 1 ) = p ,    P ( ω 0 ) = 1 − p P(\omega_1)=p,\;P(\omega_0)=1-p P(ω1)=p,P(ω0)=1p
  • 定义指示变量 X ( ω ) = 1 { ω = ω 1 } X(\omega)=1_{\{\omega=\omega_1\}} X(ω)=1{ω=ω1},立得上式 PMF。

4.2 最大熵原理

约束

  1. ∑ x P ( x ) = 1 \sum_x P(x)=1 xP(x)=1
  2. E [ X ] = p E[X]=p E[X]=p
    目标:最大化
    [
    H§=-\sum_{x=0}^1 P(x),\ln P(x).
    ]
    使用拉格朗日乘子可解出
    [
    P(1)=p,;P(0)=1-p.
    ]
    结论:在只指定期望的前提下,伯努利分布拥有最大不确定性。

4.3 二项分布特例

  • 二项分布: Y ∼ B i n o m i a l ( n , p ) Y\sim \mathrm{Binomial}(n,p) YBinomial(n,p) P ( Y = k ) = ( n k ) p k ( 1 − p ) n − k P(Y=k)=\binom n k p^k(1-p)^{n-k} P(Y=k)=(kn)pk(1p)nk.
  • n = 1 n=1 n=1 ( 1 x ) = 1 \binom1x=1 (x1)=1,则 k ∈ { 0 , 1 } k\in\{0,1\} k{0,1},恰得伯努利分布。

5. 核心数学性质

性质 符号 / 公式 说明
期望 E [ X ] = p E[X]=p E[X]=p
方差 V a r ( X ) = p ( 1 − p ) \mathrm{Var}(X)=p(1-p) Var(X)=p(1p) 最大值 0.25 0.25 0.25 p = 0.5 p=0.5 p=0.5
二阶矩 E [ X 2 ] = p E[X^2]=p E[X2]=p X 2 = X X^2=X X2=X
偏度 (Skewness) γ 1 = 1 − 2 p p ( 1 − p ) \gamma_1=\frac{1-2p}{\sqrt{p(1-p)}} γ1=p(1p) 12p p = 0.5 p=0.5 p=0.5 对称
峰度 (Kurtosis) γ 2 = 1 − 6 p ( 1 − p ) p ( 1 − p ) \gamma_2=\frac{1-6p(1-p)}{p(1-p)} γ2=p(1p)16p(1p)
MGF M X ( t ) = E [ e t X ] = 1 − p + p e t M_X(t)=E[e^{tX}]=1-p+pe^t MX(t)=E[etX]=1p+pet
CF ϕ X ( t ) = E [ e i t X ] = 1 − p + p e i t \phi_X(t)=E[e^{itX}]=1-p+pe^{it} ϕX(t)=E[eitX]=1p+peit
H ( p ) = − p ln ⁡ p − ( 1 − p ) ln ⁡ ( 1 − p ) H(p)=-p\ln p-(1-p)\ln(1-p) H(p)=plnp(1p)ln(1p) 单位:nats (ln) / bits (log₂)
交叉熵 H ( p , q ) = − p ln ⁡ q − ( 1 − p ) ln ⁡ ( 1 − q ) H(p,q)=-p\ln q-(1-p)\ln(1-q) H(p,q)=plnq(1p)ln(1q) 衡量两个 Bernoulli 的差异
KL 散度 D K L ( p ∣ q ) = p ln ⁡ p q + ( 1 − p ) ln ⁡ 1 − p 1 − q D_{KL}(p|q)=p\ln\frac{p}{q}+(1-p)\ln\frac{1-p}{1-q} DKL(pq)=plnqp+(1p)ln1q1p

5.1 累积分布函数 (CDF)

[
F(x)=
\begin{cases}
0, & x<0;\
1-p, & 0\le x<1;\
1, & x\ge1.
\end{cases}
]


6. 指数族与共轭先验

  • 指数族形式
    [
    P(x)=\exp\bigl{x\ln\frac p{1-p} + \ln(1-p)\bigr}
    ]
    自然参数 θ = ln ⁡ p 1 − p \theta=\ln\frac p{1-p} θ=ln1pp充分统计量 T ( x ) = x T(x)=x T(x)=x
  • Beta 共轭先验:设先验 p ∼ B e t a ( α , β ) p\sim \mathrm{Beta}(\alpha,\beta) pBeta(α,β),观测到 s s s 次成功、 f f f 次失败,则后验
    [
    p\mid\text{data}\sim \mathrm{Beta}(\alpha+s,;\beta+f).
    ]

7. 参数估计与区间估计

7.1 最大似然估计 (MLE)

观测样本 { x i } i = 1 n \{x_i\}_{i=1}^n {xi}i=1n,对数似然:
[
\ln L§=\sum_i \bigl[x_i\ln p + (1-x_i)\ln(1-p)\bigr].
]
解得
[
\hat p_{\mathrm{MLE}}=\frac1n\sum_{i=1}^n x_i = \bar x.
]

7.2 方法矩估计 (MoM)

理论一阶矩 E [ X ] = p E[X]=p E[X]=p,令样本平均 x ˉ \bar x xˉ = 理论矩,得同样结果 p ^ M o M = x ˉ \hat p_{\mathrm{MoM}}=\bar x p^MoM=xˉ

7.3 贝叶斯更新 (Beta 共轭)

  • 先验 B e t a ( α , β ) \mathrm{Beta}(\alpha,\beta) Beta(α,β),观测成功 s s s,失败 f = n − s f=n-s f=ns
  • 后验 B e t a ( α + s , β + f ) \mathrm{Beta}(\alpha+s,\beta+f) Beta(α+s,β+f)
  • 后验均值 α + s α + β + n \dfrac{\alpha+s}{\alpha+\beta+n} α+β+nα+s 带平滑效应。

7.4 置信区间

方法 区间估计 备注
Wald p ^ ± z α / 2   p ^ ( 1 − p ^ ) / n \hat p\pm z_{\alpha/2}\,\sqrt{\hat p(1-\hat p)/n} p^±zα/2p^(1p^)/n 简单,但小样本或 p p p 边缘易失败
Wilson p ^ + z 2 / ( 2 n ) ± z p ^ ( 1 − p ^ ) n + z 2 4 n 2 1 + z 2 / n \dfrac{\hat p + z^2/(2n)\pm z\sqrt{\frac{\hat p(1-\hat p)}n + \frac{z^2}{4n^2}}}{1+z^2/n} 1+z2/np^+z2/(2n)±znp^(1p^)+4n2z2 小样本表现更好
Clopper–Pearson 基于 Beta 反函数 精确区间,略保守

8. 假设检验与检验功效

  • 单样本比例检验
    • 大样本 z z z 检验:
      [
      Z=\frac{\hat p - p_0}{\sqrt{p_0(1-p_0)/n}} \sim N(0,1).
      ]
    • 小样本:Binomial Exact Test(Fisher 精确检验)。
  • 双样本比例检验
    • 比较两个独立样本 p ^ 1 , p ^ 2 \hat p_1,\hat p_2 p^1,p^2,联合 z z z 检验或 Fisher 精确。
  • 检验功效 (Power)
    • 给定效应量 Δ = p 1 − p 0 \Delta=p_1-p_0 Δ=p1p0,可反算所需样本量 n n n 满足指定功效 β。

9. 与其他分布的关系

  • 二项分布 n n n 次独立伯努利之和。
  • 几何分布:首次成功前的失败次数,支持 { 0 , 1 , 2 , …   } \{0,1,2,\dots\} {0,1,2,}
  • 负二项分布:达到 r r r 次成功所需的试验次数。
  • 泊松近似:当 n n n 大、 p p p 小、 λ = n p \lambda=np λ=np 固定时,二项趋于 Poisson( λ \lambda λ)。
  • 正态近似:当 n n n 大时, B i n ( n , p ) ≈ N ( n p , n p ( 1 − p ) ) \mathrm{Bin}(n,p)\approx N(np,np(1-p)) Bin(n,p)N(np,np(1p));特殊 n = 1 n=1 n=1 则退化。
  • Beta–Binomial:Beta 先验 + Binomial 数据 → 复合模型,处理过度离散。

10. 典型应用场景

  1. A/B Test & 点击率
    • 用户点击(1)与未点击(0)的分布建模。
  2. 可靠性工程
    • 组件一次测试是否通过合格(1)/不合格(0)。
  3. 医学诊断
    • 检测结果阳性 vs 阴性。
  4. 二分类机器学习
    • 标签 y ∈ { 0 , 1 } y\in\{0,1\} y{0,1},模型输出 p ^ \hat p p^,损失=交叉熵。
  5. 信息论
    • 单比特信源的信息熵 H ( p ) H(p) H(p) 即伯努利熵。

11. 常见误区与 FAQ

误区 纠正说明
“方差 = p” 正确是 p ( 1 − p ) p(1-p) p(1p);只有 p = 0 , 1 p=0,1 p=0,1 时方差为 0。
“MLE 不稳定” n n n 小且 p ^ \hat p p^ 接近 0/1 时,Wald 区间会失效,应用 Wilson 或 Clopper–Pearson。
“伯努利=公平抛硬币” 抛硬币只是 p = 0.5 p=0.5 p=0.5 的特例,任何二元事件都可用伯努利建模。
“交叉熵 ≠ 负对数似然” 在二分类里二者恰为同一表达,但上下文侧重点不同:信息论 vs 统计学。

12. 思维导图全景

mindmap
  root((伯努利分布 Bern(p)))
    定义
      PMF: p^x(1-p)^{1-x}
      支持: {0,1}
      参数: p∈[0,1]
    推导
      样本空间
      最大熵
      Binomial n=1
    数学性质
      E[X]=p
      Var[X]=p(1-p)
      MGF:1−p+pe^t
      熵:-p ln p-(1-p) ln(1-p)
      KL(p||q)
    指数族
      自然参 θ=ln(p/(1-p))
      Beta 共轭(α,β)
    估计
      MLE: p̂=Σx_i/n
      MoM: 同MLE
      Bayesian: Beta→Beta
      CI: Wald, Wilson, CP
    检验
      单样本 z-test
      Exact Binomial test
      双样本比例检验
    关联分布
      Binomial(n,p)
      Geometric
      NegBinomial
      Poisson 极限
    应用
      A/B 测试
      可靠性
      医学诊断
      二分类交叉熵
      信息熵
    注意事项
      方差=均值? NO
      小样本用哪种区间?
      p 边界问题

13. 小结

  • 伯努利分布虽简单,却是离散概率的基石——所有二元事件的统计模型都从它出发
  • 关键理解:PMF期望/方差指数族结构Beta 共轭更新假设检验与其他分布的衔接
  • 应用广泛:从 A/B 测试到深度学习,从可靠性工程到信息论。

掌握伯努利分布,等于掌握了“是/否”背后的概率语言。愿它成为你深入概率统计与机器学习的第一枚砖石。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐