概述

提问:在我们计算某些数据标准差(或者方差)的时候,会发现有些公式分母是n,而有些公式的分母却是(n-1),那么到底哪个公式才是正确的呢?

答案

  1. 如果是算总体的标准偏差,分母就用n,这就是真实的标准偏差,属于描述统计。
  2. 如果是算样本的标准偏差,无偏估计是n-1,有偏估计是n。毕竟样本只是用来估量总体的情况,属于推论统计,所以利用样本计算总体个体差异性时候通常会保守估计,除以n-1得出来的标准偏差会比除以n的标准偏差来得大。
  3. 当然,当样本数量逐步逼近总体数量时,标准偏差的有偏估计和无偏估计的差别就会越来越小,这也符合统计学的本义。

软件计算

通过上面的介绍我们已经知道了二者的区别。那么,我们用软件计算数据标准差的时候它默认使用的公式分母上是n还是n-1呢?

EXCEL

Excel中STDEV函数默认用的是n-1

Python

Pandas默认用的是n-1,设置axis参数

import pandas as pd
s = pd.Series([-1387,1025,1100,533,-1759,686,1421,3637,3746,-1177,-3253,-1759,-1962])
s.std()
Out[14]: 2163.4817854323237
s.std(ddof=0)
Out[15]: 2078.60606455327

Numpy默认使用的是n,若是二维数据,设置axis参数

import numpy as np
a = [-1387,1025,1100,533,-1759,686,1421,3637,3746,-1177,-3253,-1759,-1962]
np.std(a)
Out[8]: 2078.60606455327
np.std(a, ddof=1)
Out[9]: 2163.4817854323237
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐