【读书笔记-＞统计学】12-02 置信区间的构建-t分布概念简介

t分布的标准分的计算方法与正态分布的标准分的计算方法相同。唯一的差别是，我们用T而不是Z代表结果，这是为了配合t分布的使用。当n很小时，t分布给出的置信区间比正态分布的置信区间更宽，这使它更适合用于小样本。为了求出t值，先从概率表中查找第一列的v值，再查找第一行的p值，二者的交点处即为t值。t分布的使用方法与正态分布相似——先将概率区间的上下限转化为标准分，然后用概率表求出所需要的结果。通过t分布

小明2766

9658人浏览 · 2022-07-19 13:26:50

小明2766 · 2022-07-19 13:26:50 发布

t分布

假设一个情境：我们想知道糖球的典型重量。但由于只有一家糖果店提出要求，因此只抽取了包含10颗具有代表性的样本，然后称了每一粒糖球的重量。这个样本的 $x‾=0.5盎司,s2=0.09\overline{x}=0.5盎司, s^2=0.09$ 。

老样子：

第1步：选择总体统计量

我们需要为糖球重量均值构建一个置信区间，也就是要为总体均值 $μ\mu$ 构建置信区间。由于需要求 $μ\mu$ 的置信区间，于是下一步就是求 $μ\mu$ 的抽样分布—— $X‾\overline{X}$ 的分布。

第2步：求 $X‾\overline{X}$ 的概率分布

这里我们碰到问题，从上面的快捷运算表可以得知，当总体分布 $X$ 本身符合正态分布时，我们未知总体方差 $σ2\sigma^2$ ，需要用点估计量 $s^2$ 代替，但是条件是n很大（至少30），这条路走不通了❌

另一个问题是，样本太小了，估计值很可能出现较大误差——比使用大样本的误差要大得多。这些潜在的误差意味着使用正态分布无法得出足够精确的 $X‾\overline{X}$ 的概率，那样就无法得出精确的置信区间。

那么， $X‾\overline{X}$ 符合哪种分布呢？实际上，它符合t分布。

当样本很小时， $X‾\overline{X}$ 符合t分布

当总体分布符合正态分布， $σ2\sigma^2$ 未知，且可供支配的样本很小时， $X‾\overline{X}$ 符合t分布。

t分布是外形光滑、对称的曲线，确切形状取决于样本大小。当样本很大时，t分布外形很像正态分布；当样本很小时，曲线较为扁平，有两条粗粗的尾巴。它只有一个参数——v，v=n-1。n为样本的大小，v被称为自由度。

下面这张图，对应了各种v对应的t分布。

在这里插入图片描述

“T符合t分布且自由度为v”的简明表示方法为：
$\sim t(v)$
（T为检验统计量，计算方法见下；t(v)表示：我们正在使用自由度为v的t分布；v=n-1）

t分布的使用方法与正态分布相似——先将概率区间的上下限转化为标准分，然后用概率表求出所需要的结果。

求t分布的标准分

t分布的标准分的计算方法与正态分布的标准分的计算方法相同。像处理正态分布一样，我们先减去抽样分布的期望，然后用所得到的差除以标准差。唯一的差别是，我们用T而不是Z代表结果，这是为了配合t分布的使用。

我们需要求出 $X‾\overline{X}$ 的分布（详细见：上章，样本均值的概率），于是要用到 $X‾\overline{X}$ 的期望和标准差。 $X‾\overline{X}$ 的期望为 $μ\mu$ ，标准差为 $σ/n\sigma/\sqrt{n}$ 。由于需要用s估计 $σ\sigma$ 的数值，于是t分布的标准分的算式如下：

在这里插入图片描述

我们只要代入 $X‾,σ^\overline{X}, \hat{\sigma}$ 和n就行了。

已知v=n-1=9， $s^2=0.09$ ，则
$\frac{\overline{X}-\mu}{s/\sqrt{n}} \\ = \frac{\overline{X}-\mu}{\sqrt{0.09/10}} \\ = \frac{\overline{X}-\mu}{0.0949}$
第3步：决定置信水平

置信水平指的是你希望自己对“置信区间包含总体统计量”这个说法有多大信心。像上面一样，让我们用95%作为总体均值的置信水平，于是总体均值位于置信区间之中的概率为0.95。

在这里插入图片描述

第4步：求出置信上下限

t分布的置信上下限的算法类似于正态分布的算法，即可通过下式进行计算：

在这里插入图片描述

我们可以通过t分布概率表求出t值。

使用t分布概率表

通过t分布概率表可求出P(T>t)中的t值。在我们的实例中，p=0.025。

为了求出t值，先从概率表中查找第一列的v值，再查找第一行的p值，二者的交点处即为t值。例如，查找v=7和p=0.05，可得t=1.895。

求出t值后，就能求置信区间了。

在这里插入图片描述

t分布与正态分布比较

在用小样本估计总体方差时，t分布更精确。

基于小样本估计 $σ2\sigma^2$ 有一个问题，即可能无法精确地反映总体方差的真实值。也就是说，我们需要让区间变宽，以便在置信区间中留出一些误差空间。

t分布的形状随着v值发生变化，由于考虑了样本的大小，即使 $σ2\sigma^2$ 的估计精度存在各种足以让人有所察觉的不确定性，t分布也能忽略不计。当n很小时，t分布给出的置信区间比正态分布的置信区间更宽，这使它更适合用于小样本。

置信区间简明算法——t分布

下面是有关t分布的使用时机以及 $μ\mu$ 的置信区间的简单提示。

在这里插入图片描述

为了求出t(v)，需要查找t分布概率表。为此，用v=n-1和你确定下来的置信水平求出置信区间。

例题解答

在这里插入图片描述

另一道例题

在这里插入图片描述

问：如果样本大小n发生改变，对置信区间会有何影响？

答：如果n减小，则置信区间变宽；如果n增大，则置信区间变窄。

置信区间的表达式为：
$统计量 \pm 误差范围$
其中，误差范围 = c * 统计量的标准差

统计量的标准差取决于样本的大小——n越大，统计量的标准差越小；这就是说，n越大误差范围越小，n越小误差范围越大。

一般说来，较小的样本形成较宽的置信区间，较大的样本形成较窄的置信区间。

总结

我们现在学会了两种估计总体统计量的方法了。

上一章，我们学会使用点估计量，点估计量方法可用于估计总体统计量的精确数值，是根据样本数据又可能做出的最好预测。
这一章，我们学会使用总体统计量的置信区间。这个方法得到的并非总体统计量的精确估计，而是求出总体统计量的一个有较高可信度的数值范围。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

SpringBoot自动装配原理：校招面试必考点解析

想象一下：你买了一台扫地机器人。你不需要自己装轮子、写路径算法、配传感器；只要插上电（启动），它就能自动扫地。Spring Boot 的自动装配就是这个道理！Spring Boot 会根据你项目中引入的依赖（jar 包），自动帮你创建需要的对象（Bean），省去手动配置。开关（通过启用）菜单（列出所有可自动配置的类）判断（决定是否真的装配）💬最后一句“有依赖、满足条件、没冲突，自动装配才生效。

DAMO开发者矩阵

阿里云部署OpenClaw并集成钉钉

本文详细介绍了在阿里云上部署OpenClaw AI代理平台并集成钉钉机器人的完整流程。主要内容包括：1) 购买阿里云轻量应用服务器；2) 配置OpenClaw环境并获取API Key；3) 在钉钉平台创建应用和机器人；4) 发布应用版本并获取凭证；5) 在服务器端完成钉钉集成配置；6) 测试机器人功能。教程特别提醒注意API Key的安全保护，并提供了钉钉开发者权限获取技巧。通过这套方案，用户可快