第七章 参数估计


7.1 参数估计的基本原理

参数估计:用样本统计量去去估计总体的参数

7.1.1 估计量与估计值
  • 估计量θ^{\hat \theta}θ^):用于估计总体参数的随机变量
  • 估计值:估计参数时计算出来的统计量的具体值
样本统计量(估计量) \\ θ^{\hat \theta}θ^ 总体参数 (被估计的参数)\\ θ\thetaθ
样本均值xˉ样本均值\bar xxˉ 总体均值μ总体均值\muμ
样本比例p样本比例pp 总体比例π总体比例\piπ
样本方差s2样本方差s^2s2 总体方差σ2总体方差\sigma^2σ2
7.1.2 点估计和区间估计
  • 点估计:用样本的估计量θ^{\hat \theta}θ^的某个取值直接作为总体参数θ\thetaθ的估计值

    • 一个具体的点估计值无法给出估计的可靠性的度量
    • 由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值
  • 区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到
    在这里插入图片描述

    • 置信区间:由样本统计量所构造的总体参数的估计区间

      • 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以取名为置信区间
      • 置信上限:置信区间的最小值
      • 置信下限:置信区间的最大值
        在这里插入图片描述
    • 置信水平1−α1-\alpha1α):置信区间中包含总体参数真值的次数,又称置信度或置信系数(α\alphaα为是总体参数未在区间内的比例)

常用置信水平的z2/αz_{2/\alpha}z2/α值:

置信水平 α\alphaα α/2\alpha/2α/2 zα/2z_{\alpha/2}zα/2
90% 0.10 0.05 1.645(z0.05=z_{0.05} =z0.05= 1.645 )
95% 0.05 0.025 1.96z0.025=z_{0.025} =z0.025= 1.96)
99% 0.01 0.005 2.58(z0.005=z_{0.005} =z0.005= 2.58)
7.1.3 评价估计量的标准
  • 无偏性:估计量抽样分布的数学期望等于被估计的总体参数,即E(θ^)=θE(\hat \theta) = \thetaE(θ^)=θ,称θ^为θ\hat \theta 为 \thetaθ^θ的无偏估计量。
  • 有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效,即D(θ^)D(\hat \theta)D(θ^)越小,估计越有效。
  • 一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数

7.2 一个总体参数的区间估计

在这里插入图片描述

7.2.1 总体均值的区间估计
  • 大样本
    • 不论总体是不是正态分布,只要是大样本就有样本均值的标准化变量:
      z=xˉ−μσ/n∼N(0,1)z = \frac{\bar x - \mu}{\sigma / \sqrt{n}} \sim N(0,1)z=σ/n xˉμN(0,1)
      总体均值μ\muμ1−α1-\alpha1α置信水平下的置信区间为:
      xˉ±zα/2σn\bar x \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}}xˉ±zα/2n σ

      xˉ±zα/2sn(σ未知)\bar x \pm z_{\alpha/2} \frac{s}{\sqrt{n}}(\sigma 未知)xˉ±zα/2n sσ
  • 小样本
    • 正态总体且总体方差σ2\sigma^2σ2已知:可使用大样本中的zzz分布来计算
    • 正态总体且总体方差σ2\sigma^2σ2未知,样本均值的标准化变量为:
      t=xˉ−μs/n∼t(n−1)t = \frac{\bar x - \mu}{s / \sqrt{n}} \sim t(n-1)t=s/n xˉμt(n1)
      总体均值μ\muμ1−α1-\alpha1α置信水平下的置信区间为:
      xˉ±tα/2sn\bar x \pm t_{\alpha/2} \frac{s}{\sqrt{n}}xˉ±tα/2n s
7.2.2 总体比例的区间估计
  • 样本比例的标准化变量:
    z=p−ππ(1−π)/n∼N(0,1)z = \frac{p-\pi}{\sqrt{\pi(1-\pi)/n}{}} \sim N(0,1)z=π(1π)/n pπN(0,1)
  • 总体比例π\piπ1−α1-\alpha1α置信水平下的置信区间为:
    p±zα/2p(1−p)np \pm z_{\alpha/2} \sqrt{\frac{p(1-p)}{n}}p±zα/2np(1p)
7.2.3 总体方差的区间估计
  • 样本方差的标准化变量:
    χ2=(n−1)s2σ2∼χ2(n−1)\chi^2 = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)χ2=σ2(n1)s2χ2(n1)
  • 总体方差σ2\sigma^2σ21−α1-\alpha1α置信水平下的置信区间为:
    χ1−α/22≤(n−1)s2σ2≤χα/22\chi_{1-\alpha/2}^2 \le \frac{(n-1)s^2}{\sigma^2} \le \chi_{\alpha/2}^2χ1α/22σ2(n1)s2χα/22
    (n−1)s2χα/22≤σ2≤(n−1)s2χ1−α/22\frac{(n-1)s^2}{\chi_{\alpha/2}^2} \le \sigma^2 \le \frac{(n-1)s^2}{\chi_{1-\alpha/2}^2}χα/22(n1)s2σ2χ1α/22(n1)s2

7.3 两个总体参数的区间估计

在这里插入图片描述

7.3.1 两个总体均值之差的区间估计
  • 独立样本
    如果两个样本是从两个不同的总体中独立抽取的,就称为独立样本。

    1. 大样本:只要是大样本就有标准化变量:
      z=(xˉ1−xˉ2)−(μ1−μ2)σ12n1+σ22n2∼N(0,1)z = \frac{(\bar x_1 - \bar x_2)-(\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n2}}} \sim N(0,1)z=n1σ12+n2σ22 (xˉ1xˉ2)(μ1μ2)N(0,1)
      总体均值之差μ1−μ2\mu_1 - \mu_2μ1μ21−α1-\alpha1α置信水平下的置信区间为:
      (xˉ1−xˉ2)±zα/2σ12n1+σ22n2(\bar x_1 - \bar x_2)\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}(xˉ1xˉ2)±zα/2n1σ12+n2σ22

      (xˉ1−xˉ2)±zα/2s12n1+s22n2(σ未知时)(\bar x_1 - \bar x_2)\pm z_{\alpha/2}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}(\sigma未知时)(xˉ1xˉ2)±zα/2n1s12+n2s22 (σ)
    2. 小样本:两个总体需要服从正态分布
      • 当两个总体方差σ12\sigma_1^2σ12σ22\sigma_2^2σ22已知时:可使用大样本中的zzz分布来计算
      • 当两个总体方差σ12\sigma_1^2σ12σ22\sigma_2^2σ22未知时:
        • σ12=σ22\sigma_1^2 = \sigma_2^2σ12=σ22时:
          总体方差的合并估计量:
          在这里插入图片描述
          在这里插入图片描述
          总体均值之差μ1−μ2\mu_1 - \mu_2μ1μ21−α1-\alpha1α置信水平下的置信区间为:
          在这里插入图片描述
        • σ12\sigma_1^2σ12 ≠\ne= σ22\sigma_2^2σ22时:
          自由度v:在这里插入图片描述
          总体均值之差μ1−μ2\mu_1 - \mu_2μ1μ21−α1-\alpha1α置信水平下的置信区间为:
          在这里插入图片描述
  • 匹配样本
    d和di:两个匹配样本差值d和d_i:两个匹配样本差值ddi
    dˉ:全部匹配样本差值的均值\bar d:全部匹配样本差值的均值dˉ
    σd:总体各差值的标准差\sigma_d:总体各差值的标准差σd
    sd:样本差值的标准差s_d:样本差值的标准差sd

    1. 大样本
      两个总体均值之差μd=μ1−μ2\mu_d = \mu_1 - \mu_2μd=μ1μ21−α1-\alpha1α置信水平下的置信区间为:
      dˉ±zα/2σdn\bar d \pm z_{\alpha/2} \frac{\sigma_d}{\sqrt{n}}dˉ±zα/2n σd
    2. 小样本:两个总体各观察值的配对差服从正态分布
      两个总体均值之差μd=μ1−μ2\mu_d = \mu_1 - \mu_2μd=μ1μ21−α1-\alpha1α置信水平下的置信区间为:
      dˉ±tα/2(n−1)sdn\bar d \pm t_{\alpha/2}(n-1) \frac{s_d}{\sqrt{n}}dˉ±tα/2(n1)n sd
7.3.2 两个总体比例之差的区间估计
    • 标准化变量:
      在这里插入图片描述
    • 两个总体比例之差π1−π2\pi_1 - \pi_2π1π21−α1-\alpha1α 置信水平下
      的置信区间为:
      在这里插入图片描述
7.3.3 两个总体方差比的区间估计

这里面的Fα/2F_{\alpha/2}Fα/2F1−α/2F_{1-\alpha/2}F1α/2都是服从分子自由度为n1−1n_1-1n11和分母自由度为n2−1n_2-1n21的F分布的分位数。

  • 标准化变量:
    F=s12s22⋅σ22σ12∼F(n1−1,n2−1)F = \frac{s_1^2}{s_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \sim F(n_1-1, n_2-1)F=s22s12σ12σ22F(n11,n21)
    因为:
    F1−α/2≤F≤Fα/2F_{1-\alpha/2} \le F \le F_{\alpha/2}F1α/2FFα/2
    有:
    F1−α/2≤s12s22⋅σ22σ12≤Fα/2F_{1-\alpha/2} \le \frac{s_1^2}{s_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \le F_{\alpha/2}F1α/2s22s12σ12σ22Fα/2
    所以总体方差比σ12/σ22\sigma_1^2/\sigma_2^2σ12/σ221−α1-\alpha1α置信水平下的置信区间为:
    s12/s22Fα/2≤σ12σ22≤s12/s22F1−α/2\frac{{s_1^2}/{s_2^2}}{F_\alpha/2} \le \frac{\sigma_1^2}{\sigma_2^2} \le \frac{{{s_1^2}/{s_2^2}}}{F_{1-\alpha/2}}Fα/2s12/s22σ22σ12F1α/2s12/s22
    根据Fα/2F_{\alpha/2}Fα/2F1−α/2F_{1-\alpha/2}F1α/2
    F1−α/2(n1,n2)=1Fα(n2,n1)F_{1-\alpha/2}(n_1,n_2) = \frac{1}{F_{\alpha}(n_2, n_1)}F1α/2(n1,n2)=Fα(n2,n1)1

7.3小结:

在这里插入图片描述
在这里插入图片描述


7.4 样本量的确定

在进行参数估计之前,首先应确定一个适当的样本量,也就是应该抽取一个多大的样本来估计总体参数,所以就需要确定样本量。

  • EEE(希望估计误差):代表希望达到的标准误差;
  • nnn(样本量):代表希望抽取的样本量,算出来的n向上取整;
7.4.1 估计总体均值时样本量的确定
  • E=zα/2σnE = z_{\alpha /2 }\frac{\sigma}{\sqrt{n}}E=zα/2n σ
  • n=(zα/2)2σ2E2n = \frac{(z_{\alpha/2})^2\sigma^2}{E^2}n=E2(zα/2)2σ2
7.4.2 估计总体比例时样本量的确定
  • E=zα/2π(1−π)nE = z_{\alpha /2 }\sqrt{\frac{\pi(1-\pi)}{n}}E=zα/2nπ(1π)
  • n=(zα/2)2π(1−π)E2n = \frac{(z_{\alpha/2})^2\pi(1-\pi)}{E^2}n=E2(zα/2)2π(1π)
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐