本文的要点如下:

  • 简单介绍贝叶斯统计学的历史背景
  • 什么是统计推断
  • Bayesian和frequentist的主要区别
  • 先验分布和后验分布

历史背景

1763年,也就是英国学者Bayes去世后两年,他的一篇传世遗作发表了,其中提出了Bayes公式。

Bayes公式从形式上看,它只不过是条件概率定义的一个简单的推论,这个“简单的公式”为什么会导致统计学中一个学派的崛起

这是因为贝叶斯在文章中点明了一种全新的统计学归纳推理的思想,直到二十世纪前中期,在Jeffreys、Keynes等学者的推动下,贝叶斯学派取得了较大的影响,而贝叶斯学派和频率学派的经年苦斗成为了学术界非常著名的论战,至今依然没有分出高下。

统计推断是什么

统计推断,或者叫做推断统计学(statistical inference)是指统计学中研究如何根据样本数据去推断总体数量特征的方法。统计推断主要可以分为两大类:一类是参数估计问题;另一类是假设检验问题。

统计推断的任务,就是根据样本去作出某种关于总体的未知参数的概率形式的论断。比如对未知参数

的值作一个估计或者判断
的区间。

统计推断可能使用如下三种信息

一 总体信息,即总体分布或所属分布族的信息。

二 样本信息,即从总体抽取的样本的信息。

三 先验信息,即在抽样之前有关统计问题的一些信息,主要来源于经验和历史资料。

贝叶斯统计学

只使用第一种和第二种信息进行的统计推断被称为经典统计学,也叫做频率学派,它的基本观点是把数据(样本)看成是来自具有一定概率分布的总体,所研究的对象是这个总体而不限于数据本身。

基于上面三种信息进行的统计推断叫做贝叶斯统计学。它和频率学派的主要差别在于是否利用先验信息。贝叶斯统计学对先验信息的收集挖掘和加工,使其数量化,形成先验分布,提高统计推断的质量。

例如,假定投掷一枚普通的硬币3次,每次都是正面朝上。frequentist的极大似然模型在估计硬币正面朝上的概率时,结果会是1,表示所有未来的投掷都会是正面朝上! 相反,一个带有任意的合理的先验的Bayesian方法不会得出这么极端的结论。

先验分布

贝叶斯学派的最基本的观点是:任何一个未知量

都可以
看作一个随机变量,应该使用一个概率分布去描述
,这个概率分布是在
抽样前就有的,被称为先验分布。

那么问题也来了,如何确定先验分布?

这也是贝叶斯统计学的真正的难点

后验分布

根据贝叶斯公式,后验分布:

其中

是先验概率分布,
是后验概率分布,分母是关于 x 的边缘概率分布。

分母是关于x的边缘概率分布,在给定观测数据的情况下,它是一个归一化常数,确保了左侧的后验概率分布是一个合理的概率密度,积分为1。

后验分布集中了总体,样本和先验三种信息中有关

的一切信息,而又排除了一切与
无关的信息之后(对
的积分)所得的结果,故基于后验分布进行统计推断更为有效和合理。

得出了后验分布以后,对参数

任何统计推断,都只能基于这个后验分布,这符合人们认识事物的通常程序:在试验前关于参数
的认识(先验分布)的基础上,由于有了新的信息(样本),使我们
修正了原来的认识,体现在后验分布中。

贝叶斯学派认为,样本的唯一作用在于它可以使我们对

的认识起到转化

注意,在贝叶斯统计推断中一些频率学派的方法不能用了,比如无偏性,矩估计,极大似然估计在某些条件下可以使用。

发展


贝叶斯框架源于18世纪,但是贝叶斯方法的实际应用一直受限,原因是贝叶斯后验分布在高维计算上的困难,执行完整的贝叶斯步骤的困难性较大,尤其是需要在整个参数空间求和或者求积分,贝叶斯统计推断非常难以实现,这在做预测或者比较不同的模型时必须进行。

采样方法的发展,例如马尔可夫蒙特卡罗(MCMC),加上计算机速度和存储容量的巨大提升,使贝叶斯技术应用更加方便。

21世纪以来,有很多高效的判别式方法被提出,例如变分贝叶斯( variational Bayes)和期望传播(expectation propagation),让贝叶斯方法能够应用于大规模的应用中。


参考资料:

《贝叶斯统计》 茆诗松

《PRML》 Christopher M. Bishop

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐