【统计学笔记】第12章多元线性回归

书籍：《统计学（第六版）》书籍作者：贾俊平索引???? **专业名词：方便查找，解释说明**???? **专业名词**???? 公式推导：解释说明???? **公式记忆：方便查找**???? 摘抄???? 案例12.1 多元线性回归模型12.1.1 多元回归模型与回归方程???? **多元回归模型**设因变量为y，k个自变量分别为x1，x2，…，xk，x_1，x_2

好好学习的星熊

2135人浏览 · 2022-02-22 20:00:00

好好学习的星熊 · 2022-02-22 20:00:00 发布

书籍：《统计学（第六版）》
书籍作者：贾俊平

索引

💬 专业名词：方便查找，解释说明

📌 专业名词

🔒 公式推导：解释说明

🔑 公式记忆：方便查找

📖 摘抄

🗣 案例

12.1 多元线性回归模型

12.1.1 多元回归模型与回归方程

📌 多元回归模型

设因变量为y，k个自变量分别为 $x_1，x_2，…，x_k，$ 描述因变量y如何依赖于自变量和误差项ε的方程称为多元回归模型。其一般形式可表示为：

$y=β_0+β_1x_1+β_2x_2,…,β_kx_k+\varepsilon$

式中， $β_0，β_1，β_2，…，β_k$ 是模型的参数，ε为误差项。

📖 误差项的3个基本假定
（1）误差项ε是一个期望值为0的随机变量，即E(ε)=0。
（2）对于自变量x1，x2，…，xk的所有值，ε的方差σ2都相同。
（3）误差项ε是一个服从正态分布的随机变量，且相互独立，即 $ε∼N(0，σ2)ε\sim{N(0，σ2)}$ 。

📌 多元回归方程
描述了因变量y的期望值与自变量x1，x2，…，xk之间的关系。公式如下：

$E(y)=β_0+β_1x_1+β_2x_2+…+β_kx_k$
12.1.2 估计的多元回归方程

📌 估计的多元回归方程

当用样本统计量 $β^0，β^1，β^2，…，β^k\hat{β}_0，\hat{β}_1，\hat{β}_2，…，\hat{β}_k$ 去估计回归方程中的未知参数β0，β1，β2，…，βk；其公式为：

$E(y)=β^0+β^1x1+β^2x2+…+β^kxk E(y)=\hat{β}_0+\hat{β}_1x_1+\hat{β}_2x_2+…+\hat{β}_kx_k$
12.1.3 参数的最小二乘估计

📖 使用最小二乘法求解，由于求解计算较难，故使用excel求解

【工具】-【回归】

12.2 回归方程的拟合优度（和一元线性回归几乎一致）

12.2.1 多重判定系数

🔑 判定系数- $R^2$
判定系数是对估计的回归方程拟合优度的度量，其公式如下：

$R2=SSRSST=∑(y^i−yˉi)2∑(yi−yˉi)2 R^2=\frac{SSR}{SST} =\frac{ \sum{(\hat{y}_i-\bar{y}_i)}^2 }{ \sum{(y_i-\bar{y}_i)}^2 }$

判定系数就是：回归平方和/总平方和；判定系数越接近1，说明回归直线的拟合效果越好；反之。

判定系数的实际意义：在y取值的变动中，有 $R^2$ （这是个百分比）的部分可以由x与y之间的线性关系来解释；即y中有 $R^2$ 是由x决定的。

📌 多重判定系数- $R^2$
多重判定系数是多元回归中的回归平方和占总平方和的比例。
反映了因变量y的变差中被估计的回归方程所解释的比例。

📖 多重判定系数的注意事项
自变量个数的增加将影响到因变量中被估计的回归方程所解释的变差数量。

故当自变量越多，预测误差会越小， $R^2$ 变大。

为了避免这个问题，可以使用调整的多重判定系数。

$R^2$ 的平方根称为多重相关系数，也称为复相关系数，度量了因变量同k个自变量的相关程度。

📌 调整的多重判定系数
为了避免增加自变量而高估 $R^2$ ，使用样本量n和自变量个数的k去调整 $R^2$ ，这种方式下的系数为调整的多重判定系数，记为 $Rα2R_\alpha^2$ ，公式为：

$R_\alpha^2=1-(1-R^2)(\frac{ n-1 }{ n-k-1 })$
12.2.2 估计标准误差

🔑 估计标准误差的公式为：

$se=∑(yi−y^i)2n−2=SSEn−2=MSE s_e=\sqrt{\frac{ \sum{(y_i-\hat{y}_i)^2} }{ n-2 }} =\sqrt{\frac{ SSE }{ n-2 }} =\sqrt{MSE}$

与一元线性回归完全一样。

12.3 显著性检验（和一元线性回归几乎一致）

☑️ 线性关系检验
检验因变量y与k个自变量之间的线性关系是否显著，也称为总体显著性检验。

构造统计量

$F=\frac{ SSR/k }{ SSE/(n-k-1) } \sim{F(k,n-k-1)}$

$F=\frac{ 回归平方和/自由度：k(自变量的个数) }{ 残差平方和/自由度：n-k-1 } \sim{F(k,n-k-1)}$
提出假设： $H0:β1=β2=...=βk=0H_0:\beta_1=\beta_2=...=\beta_k=0$ ，即没有线性关系。
计算统计量F
做出决策
若 $F>FαF>F_\alpha$ ，拒绝原假设，变量之间有线性关系；
若 $F<FαF<F_\alpha$ ，接受原假设，变量之间没有线性关系。

☑️ 回归系数检验
检验自变量对因变量的影响是否显著，也是检查变量之间有没有线性关系的。
如果 $βi=0\beta_i=0$ ，那么两个变量之间没有线性关系；
如果 $βi≠0\beta_i≠0$ ，那么两个变量之间有线性关系。

构建统计量t

$ti=β^isβ^i∼t(n−k−1) t_i=\frac{ \hat{\beta}_i }{ s_{\hat{\beta}_i} }\sim{t(n-k-1)}$

自由度为：n-2

其中 $sβ^1s_{\hat{\beta}_1}$ 计算公式如下：

$sβ^i=se∑xi2−1n(∑xi)2 s_{\hat{\beta}_i}=\frac{ s_e }{ \sqrt{ \sum{x_i^2}-\frac{1}{n}(\sum{x_i})^2 } }$

$se=∑(yi−y^i)2n−2=SSEn−2=MSE s_e=\sqrt{\frac{ \sum{(y_i-\hat{y}_i)^2} }{ n-2 }} =\sqrt{\frac{ SSE }{ n-2 }} =\sqrt{MSE}$

其中， $s_e$ 是 $σ\sigma$ 的估计量，称为估计标准误差；因为 $σ\sigma$ 通常未知，所以用 $sβ^1s_{\hat{\beta}_1}$ 作为 $σβ^1\sigma_{{\hat{\beta}_1}}$ 的估计量。
提出检验： $H0:βi=0H_0:\beta_i=0$ ，变量之间的线性关系不显著，即没有线性关系。
计算检验统计量t
做出决策
若 $∣t∣>tα/2|t|>t_{\alpha/2}$ ，拒绝原假设，两个变量之间有线性关系；
若 $∣t∣<tα/2|t|<t_{\alpha/2}$ ，接受原假设，两个变量之间有线性关系。

12.4 多重共线性

12.3.1 多重共线性及其所产生的问题

📌 多重共线性
当回归模型中两个或两个以上的自变量彼此相关时，称回归模型中存在多重共线性。

📖 多重共线性引起的问题
1. 变量之间高度相关时，可能会使回归的结果混乱；
2. 可能对参数估计值的正负号产生影响；
12.3.2 多重共线性的判别

☑️ 存在多重共线性的判断情形
- （1）模型中各对自变量之间显著相关；
- （2）当模型的线性关系检验（F检验）显著时，几乎所有回归系数βi的t检验却不显著；
- （3）回归系数的正负号与预期的相反。
- （4）容忍度（tolerance）越小，多重共线性越严重；方差扩大因子（variance inflation factor，VIF）越大，多重共线性越严重。
  
  📖 解释说明
  - 容忍度： $1-R_i^2$ ，即1-（该自变量为因变量而其他k-1个自变量为预测变量时，所得到的的线性回归模型的判定系数）；
  - 通常认为容忍度小于0.1时，存在严重的多重共线性；
  - 方差扩大因子： $VIF=11−Ri2VIF=\frac{1}{1-R_i^2}$ ，即容忍度的倒数；
  - 通常认为VIF大于10时，存在严重的多重共线性。
12.3.3 多重共线性问题的处理

📖 处理思路

（1）将一个或多个相关的自变量从模型中剔除，使保留的自变量尽可能不相关；

（2）如果要在模型中保留所有的自变量，需要：①避免根据t统计量对单个参数β进行检验；②对因变量y值的推断（估计或预测）限定在自变量样本值的范围内。

📖 多重共线性问题带来的问题主要是：对单个回归系数的解释和检验。

在求因变量的置信区间和预测区间时不会受其影响，但需要保证估计和预测的自变量范围在样本数据的范围以内。
因此，如果是为了估计或预测，可以保留所有的自变量。

在建立多元线性回归模型时，不要试图引入更多的自变量，除非确实有必要。

12.5 利用回归方程进行预测（无，让用模型算）

12.6 变量选择与逐步回归

📖 将一个或一个以上的自变量引入到回归模型中时，是否使得残差平方和（SSE）有显著减少。

如果增加一个自变量使残差平方和（SSE）的减少是显著的，则说明有必要将这个自变量引入回归模型，否则，就没有必要将这个自变量引入回归模型。

确定在模型中引入自变量 $x_i$ 是否使残差平方和（SSE）有显著减少的方法，就是使用F统计量的值作为一个标准，以此来确定是在模型中增加一个自变量，还是从模型中剔除一个自变量。

方法：向前选择、向后剔除、逐步回归、最优子集等。

📖 向前选择
从模型中没有自变量开始，增加F统计量的值最大的自变量，直至增加的自变量不能导致SSE显著增加为止。

📖 向后剔除
先对因变量拟合包括所有k个自变量的线性回归模型，去掉使模型SSE值减小最少的自变量，直到剔除一个自变量不会使SSE显著减小为止，同样使用F检验。

📖 逐步回归是将向前选择和向后剔除结合起来筛选自变量的方法。

不过在增加了一个自变量后，它会对模型中所有的变量进行考察，看看有没有可能剔除某个自变量。

逐步回归法在前面步骤中增加的自变量在后面的步骤中有可能被剔除，而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

深度观察：从静态路牌到智能交互，城市导视系统的三次进化

在过去的三十年里，城市导视系统经历了三次革命性的进化，从最初的静态路牌，到数字化电子屏，再到如今能够主动交互、智能指引的指路机器人，每一次进化都深刻改变着我们与城市的互动方式。更重要的是，电子导视系统只是解决了 "信息展示" 的问题，并没有解决 "指引" 的问题。这种 "看的时候明白，走的时候糊涂" 的现象，成为了 2.0 时代导视系统最大的痛点。在技术创新和政策支持的双重驱动下，中国的智慧导视产