中级统计师-统计学基础知识-第五章 相关分析
·
第一节 相关关系
1. 函数关系 vs 相关关系
-
函数关系
- 定义:变量间存在严格确定性的对应关系(如 y=f(x)y = f(x)y=f(x))
- 例子:本金 xxx 与利息收入 y=x+0.027xy = x + 0.027xy=x+0.027x
- 特点:一一对应,变动完全由自变量决定
-
相关关系
- 定义:变量间存在非确定性的依存关系(如身高与体重)
- 特点:受多种因素影响,无法用单一函数描述
- 例子:
- 父母收入与子女收入
- 广告费与销售量
2. 经典例题
【多选题】 下列现象具有相关关系的有(ABD)。
A. 降雨量与农作物产量
B. 人的身高与体重
C. 人口自然增长与机械变动
D. 广告费与销售量
E. 存款利率与利息
解析:C项(人口自然增长与机械变动)统计独立;E项(存款利率与利息)为函数关系。
第二节 相关关系的展示——散点图
- 作用:直观展示两变量间的分布趋势(线性/非线性、方向、强度)
- 类型:
- 正相关(点向右上方延伸)
- 负相关(点向右下方延伸)
- 无相关(点随机分布)
- 示例:身高与体重散点图显示正相关趋势。
第三节 相关关系的度量与性质
1. Pearson相关系数(rrr)
- 公式:
r=∑(x−xˉ)(y−yˉ)∑(x−xˉ)2∑(y−yˉ)2 r = \frac{\sum (x - \bar{x})(y - \bar{y})}{\sqrt{\sum (x - \bar{x})^2} \sqrt{\sum (y - \bar{y})^2}} r=∑(x−xˉ)2∑(y−yˉ)2∑(x−xˉ)(y−yˉ) - 性质:
- 范围:r∈[−1,1]r \in [-1, 1]r∈[−1,1]
- 方向:
- r>0r > 0r>0:正相关
- r<0r < 0r<0:负相关
- 强度分级(经验法则):
- ∣r∣≥0.8|r| \geq 0.8∣r∣≥0.8:高度相关
- 0.5≤∣r∣<0.80.5 \leq |r| < 0.80.5≤∣r∣<0.8:中度相关
- 0.3≤∣r∣<0.50.3 \leq |r| < 0.50.3≤∣r∣<0.5:中低度相关
- ∣r∣<0.3|r| < 0.3∣r∣<0.3:低度相关
2. 重要说明
- r=0r = 0r=0 仅表示无线性相关,可能存在非线性关系(如抛物线分布)。
- 示例:身高与体重数据计算得 r=0.83r = 0.83r=0.83,属高度正相关。
3. 经典例题
【单选题】 相关程度最高的是(C)。
C. 平均流通费用率与商业利润率的相关系数为 −0.95-0.95−0.95
解析:绝对值最大(0.95>0.920.95 > 0.920.95>0.92),负号仅表示方向。
第四节 相关关系的检验
1. 检验步骤(ttt检验)
- 原假设 H0H_0H0:总体相关系数 ρ=0\rho = 0ρ=0(无线性相关)
- 备择假设 H1H_1H1:ρ≠0\rho \neq 0ρ=0(存在线性相关)
- 检验统计量:
t=∣r∣n−21−r2∼t(n−2) t = |r| \sqrt{\frac{n-2}{1 - r^2}} \quad \sim t(n-2) t=∣r∣1−r2n−2∼t(n−2) - 决策:
- 若 ∣t∣>tα/2(n−2)|t| > t_{\alpha/2}(n-2)∣t∣>tα/2(n−2) 或 p≤αp \leq \alphap≤α,拒绝 H0H_0H0
- 适用性:适用于大样本和小样本
2. 经典例题
【判断题】 相关系数检验只能用于大样本(×)。
解析:ttt检验适用于所有样本量。
第五节 相关关系与因果关系
1. 核心观点
- 相关 ≠ 因果
- 示例:冰激凌销量与溺水死亡数正相关(共同原因:夏季高温)
- 统计工具主要探求相关关系,因果关系需更复杂分析(如控制混杂变量)。
2. 注意事项
- 高相关可能是由于:
- 直接因果
- 共同原因
- 偶然性
- 经典例题:吸烟与肺癌高度相关,但需考虑年龄、遗传等混杂因素。
总结图示
| 概念 | 要点 |
|---|---|
| 函数关系 | 严格确定,y=f(x)y = f(x)y=f(x) |
| 相关关系 | 非确定性,用散点图和 Pearson 系数度量 |
| 检验 | ttt检验判断总体相关性,原假设 ρ=0\rho = 0ρ=0 |
| 因果关系 | 需排除混杂变量,相关仅为必要条件非充分条件 |
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)