【统计学笔记】第七章 参数估计
第七章 参数估计7.1 参数估计的基本原理7.1.1 估计量与估计值7.1.2 点估计和区间估计点估计区间估计7.1.3 评价估计量的标准无偏性有效性一致性7.2 一个总体参数的区间估计7.2.1 总体均值的区间估计7.2.2 总体比例的区间估计7.2.3 总体方差的区间估计7.3 两个总体参数的区间估计7.3.1 两个总体均值之差的区间估计7.3.2 两个总体比例之差的区间估计7.3.3 两个总
第七章 参数估计
7.1 参数估计的基本原理
参数估计:用样本统计量去去估计总体的参数
7.1.1 估计量与估计值
- 估计量(θ^{\hat \theta}θ^):用于估计总体参数的随机变量
- 估计值:估计参数时计算出来的统计量的具体值
| 样本统计量(估计量) \\ θ^{\hat \theta}θ^ | 总体参数 (被估计的参数)\\ θ\thetaθ |
|---|---|
| 样本均值xˉ样本均值\bar x样本均值xˉ | 总体均值μ总体均值\mu总体均值μ |
| 样本比例p样本比例p样本比例p | 总体比例π总体比例\pi总体比例π |
| 样本方差s2样本方差s^2样本方差s2 | 总体方差σ2总体方差\sigma^2总体方差σ2 |
7.1.2 点估计和区间估计
-
点估计:用样本的估计量θ^{\hat \theta}θ^的某个取值直接作为总体参数θ\thetaθ的估计值
- 一个具体的点估计值无法给出估计的可靠性的度量
- 由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值
-
区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到

-
置信区间:由样本统计量所构造的总体参数的估计区间
- 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以取名为置信区间
- 置信上限:置信区间的最小值
- 置信下限:置信区间的最大值

-
置信水平(1−α1-\alpha1−α):置信区间中包含总体参数真值的次数,又称置信度或置信系数(α\alphaα为是总体参数未在区间内的比例)
-
常用置信水平的z2/αz_{2/\alpha}z2/α值:
| 置信水平 | α\alphaα | α/2\alpha/2α/2 | zα/2z_{\alpha/2}zα/2 |
|---|---|---|---|
| 90% | 0.10 | 0.05 | 1.645(z0.05=z_{0.05} =z0.05= 1.645 ) |
| 95% | 0.05 | 0.025 | 1.96(z0.025=z_{0.025} =z0.025= 1.96) |
| 99% | 0.01 | 0.005 | 2.58(z0.005=z_{0.005} =z0.005= 2.58) |
7.1.3 评价估计量的标准
- 无偏性:估计量抽样分布的数学期望等于被估计的总体参数,即E(θ^)=θE(\hat \theta) = \thetaE(θ^)=θ,称θ^为θ\hat \theta 为 \thetaθ^为θ的无偏估计量。
- 有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效,即D(θ^)D(\hat \theta)D(θ^)越小,估计越有效。
- 一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数
7.2 一个总体参数的区间估计

7.2.1 总体均值的区间估计
- 大样本
- 不论总体是不是正态分布,只要是大样本就有样本均值的标准化变量:
z=xˉ−μσ/n∼N(0,1)z = \frac{\bar x - \mu}{\sigma / \sqrt{n}} \sim N(0,1)z=σ/nxˉ−μ∼N(0,1)
总体均值μ\muμ在1−α1-\alpha1−α置信水平下的置信区间为:
xˉ±zα/2σn\bar x \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}xˉ±zα/2nσ
或
xˉ±zα/2sn(σ未知)\bar x \pm z_{\alpha/2} \frac{s}{\sqrt{n}}(\sigma 未知)xˉ±zα/2ns(σ未知)
- 不论总体是不是正态分布,只要是大样本就有样本均值的标准化变量:
- 小样本
- 正态总体且总体方差σ2\sigma^2σ2已知:可使用大样本中的zzz分布来计算
- 正态总体且总体方差σ2\sigma^2σ2未知,样本均值的标准化变量为:
t=xˉ−μs/n∼t(n−1)t = \frac{\bar x - \mu}{s / \sqrt{n}} \sim t(n-1)t=s/nxˉ−μ∼t(n−1)
总体均值μ\muμ在1−α1-\alpha1−α置信水平下的置信区间为:
xˉ±tα/2sn\bar x \pm t_{\alpha/2} \frac{s}{\sqrt{n}}xˉ±tα/2ns
7.2.2 总体比例的区间估计
- 样本比例的标准化变量:
z=p−ππ(1−π)/n∼N(0,1)z = \frac{p-\pi}{\sqrt{\pi(1-\pi)/n}{}} \sim N(0,1)z=π(1−π)/np−π∼N(0,1) - 总体比例π\piπ在1−α1-\alpha1−α置信水平下的置信区间为:
p±zα/2p(1−p)np \pm z_{\alpha/2} \sqrt{\frac{p(1-p)}{n}}p±zα/2np(1−p)
7.2.3 总体方差的区间估计
- 样本方差的标准化变量:
χ2=(n−1)s2σ2∼χ2(n−1)\chi^2 = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)χ2=σ2(n−1)s2∼χ2(n−1) - 总体方差σ2\sigma^2σ2在1−α1-\alpha1−α置信水平下的置信区间为:
χ1−α/22≤(n−1)s2σ2≤χα/22\chi_{1-\alpha/2}^2 \le \frac{(n-1)s^2}{\sigma^2} \le \chi_{\alpha/2}^2χ1−α/22≤σ2(n−1)s2≤χα/22
(n−1)s2χα/22≤σ2≤(n−1)s2χ1−α/22\frac{(n-1)s^2}{\chi_{\alpha/2}^2} \le \sigma^2 \le \frac{(n-1)s^2}{\chi_{1-\alpha/2}^2}χα/22(n−1)s2≤σ2≤χ1−α/22(n−1)s2
7.3 两个总体参数的区间估计

7.3.1 两个总体均值之差的区间估计
-
独立样本
如果两个样本是从两个不同的总体中独立抽取的,就称为独立样本。- 大样本:只要是大样本就有标准化变量:
z=(xˉ1−xˉ2)−(μ1−μ2)σ12n1+σ22n2∼N(0,1)z = \frac{(\bar x_1 - \bar x_2)-(\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n2}}} \sim N(0,1)z=n1σ12+n2σ22(xˉ1−xˉ2)−(μ1−μ2)∼N(0,1)
总体均值之差μ1−μ2\mu_1 - \mu_2μ1−μ2在1−α1-\alpha1−α置信水平下的置信区间为:
(xˉ1−xˉ2)±zα/2σ12n1+σ22n2(\bar x_1 - \bar x_2)\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}(xˉ1−xˉ2)±zα/2n1σ12+n2σ22
或
(xˉ1−xˉ2)±zα/2s12n1+s22n2(σ未知时)(\bar x_1 - \bar x_2)\pm z_{\alpha/2}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}(\sigma未知时)(xˉ1−xˉ2)±zα/2n1s12+n2s22(σ未知时) - 小样本:两个总体需要服从正态分布
- 当两个总体方差σ12\sigma_1^2σ12和σ22\sigma_2^2σ22已知时:可使用大样本中的zzz分布来计算
- 当两个总体方差σ12\sigma_1^2σ12和σ22\sigma_2^2σ22未知时:
- σ12=σ22\sigma_1^2 = \sigma_2^2σ12=σ22时:
总体方差的合并估计量:

总体均值之差μ1−μ2\mu_1 - \mu_2μ1−μ2在1−α1-\alpha1−α置信水平下的置信区间为:
- σ12\sigma_1^2σ12 ≠\ne= σ22\sigma_2^2σ22时:
自由度v:
总体均值之差μ1−μ2\mu_1 - \mu_2μ1−μ2在1−α1-\alpha1−α置信水平下的置信区间为:
- σ12=σ22\sigma_1^2 = \sigma_2^2σ12=σ22时:
- 大样本:只要是大样本就有标准化变量:
-
匹配样本
d和di:两个匹配样本差值d和d_i:两个匹配样本差值d和di:两个匹配样本差值
dˉ:全部匹配样本差值的均值\bar d:全部匹配样本差值的均值dˉ:全部匹配样本差值的均值
σd:总体各差值的标准差\sigma_d:总体各差值的标准差σd:总体各差值的标准差
sd:样本差值的标准差s_d:样本差值的标准差sd:样本差值的标准差- 大样本
两个总体均值之差μd=μ1−μ2\mu_d = \mu_1 - \mu_2μd=μ1−μ2在1−α1-\alpha1−α置信水平下的置信区间为:
dˉ±zα/2σdn\bar d \pm z_{\alpha/2} \frac{\sigma_d}{\sqrt{n}}dˉ±zα/2nσd - 小样本:两个总体各观察值的配对差服从正态分布
两个总体均值之差μd=μ1−μ2\mu_d = \mu_1 - \mu_2μd=μ1−μ2在1−α1-\alpha1−α置信水平下的置信区间为:
dˉ±tα/2(n−1)sdn\bar d \pm t_{\alpha/2}(n-1) \frac{s_d}{\sqrt{n}}dˉ±tα/2(n−1)nsd
- 大样本
7.3.2 两个总体比例之差的区间估计
-
- 标准化变量:

- 标准化变量:
-
- 两个总体比例之差π1−π2\pi_1 - \pi_2π1−π2在1−α1-\alpha1−α 置信水平下
的置信区间为:
- 两个总体比例之差π1−π2\pi_1 - \pi_2π1−π2在1−α1-\alpha1−α 置信水平下
7.3.3 两个总体方差比的区间估计
这里面的Fα/2F_{\alpha/2}Fα/2和F1−α/2F_{1-\alpha/2}F1−α/2都是服从分子自由度为n1−1n_1-1n1−1和分母自由度为n2−1n_2-1n2−1的F分布的分位数。
- 标准化变量:
F=s12s22⋅σ22σ12∼F(n1−1,n2−1)F = \frac{s_1^2}{s_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \sim F(n_1-1, n_2-1)F=s22s12⋅σ12σ22∼F(n1−1,n2−1)
因为:
F1−α/2≤F≤Fα/2F_{1-\alpha/2} \le F \le F_{\alpha/2}F1−α/2≤F≤Fα/2
有:
F1−α/2≤s12s22⋅σ22σ12≤Fα/2F_{1-\alpha/2} \le \frac{s_1^2}{s_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \le F_{\alpha/2}F1−α/2≤s22s12⋅σ12σ22≤Fα/2
所以总体方差比σ12/σ22\sigma_1^2/\sigma_2^2σ12/σ22在1−α1-\alpha1−α置信水平下的置信区间为:
s12/s22Fα/2≤σ12σ22≤s12/s22F1−α/2\frac{{s_1^2}/{s_2^2}}{F_\alpha/2} \le \frac{\sigma_1^2}{\sigma_2^2} \le \frac{{{s_1^2}/{s_2^2}}}{F_{1-\alpha/2}}Fα/2s12/s22≤σ22σ12≤F1−α/2s12/s22
根据Fα/2F_{\alpha/2}Fα/2求F1−α/2F_{1-\alpha/2}F1−α/2:
F1−α/2(n1,n2)=1Fα(n2,n1)F_{1-\alpha/2}(n_1,n_2) = \frac{1}{F_{\alpha}(n_2, n_1)}F1−α/2(n1,n2)=Fα(n2,n1)1
7.3小结:


7.4 样本量的确定
在进行参数估计之前,首先应确定一个适当的样本量,也就是应该抽取一个多大的样本来估计总体参数,所以就需要确定样本量。
- EEE(希望估计误差):代表希望达到的标准误差;
- nnn(样本量):代表希望抽取的样本量,算出来的n向上取整;
7.4.1 估计总体均值时样本量的确定
- E=zα/2σnE = z_{\alpha /2 }\frac{\sigma}{\sqrt{n}}E=zα/2nσ
- n=(zα/2)2σ2E2n = \frac{(z_{\alpha/2})^2\sigma^2}{E^2}n=E2(zα/2)2σ2
7.4.2 估计总体比例时样本量的确定
- E=zα/2π(1−π)nE = z_{\alpha /2 }\sqrt{\frac{\pi(1-\pi)}{n}}E=zα/2nπ(1−π)
- n=(zα/2)2π(1−π)E2n = \frac{(z_{\alpha/2})^2\pi(1-\pi)}{E^2}n=E2(zα/2)2π(1−π)
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)