[数学建模从入门到入土] 预测模型

静影ˇ屠苏

736人浏览 · 2026-01-27 02:39:39

静影ˇ屠苏 · 2026-01-27 02:39:39 发布

[数学建模从入门到入土] 预测模型

个人导航

知乎：https://www.zhihu.com/people/byzh_rc

CSDN：https://blog.csdn.net/qq_54636039

注：本文仅对所述内容做了框架性引导，具体细节可查询其余相关资料or源码

参考文章：各方资料

文章目录

[数学建模从入门到入土] 预测模型
个人导航
时间序列预测
ARIMA问题描述
自回归积分滑动平均模型ARIMA
回归
马尔科夫预测模型

时间序列预测

ARIMA
多元线性回归
Logistic回归
LSTM和决策树

更加在乎过程的可解释性, 不要一味追求结果高

核心思路分类:

因果关联分析: 分析可能存在影响的因素
(因变量与自变量的关联)
时间延续性分析: 关注数据在时间推移中的变化
(因变量和时间,历史数据的关联)

ARIMA问题描述

在这里插入图片描述

自回归积分滑动平均模型ARIMA

一种处理非平稳时间序列的统计方法

通过对时间序列进行差分处理(使其平稳化), 结合自回归AR和滑动平均MA的特性, 建立预测模型

三个参数:

$p$ : 自回归AR的阶数
$d$ : 差分次数(使时间序列平稳)
$q$ : 滑动平均MA的阶数

$X_t = \phi_1 X_{t-1} + \phi_2 X_{t-2} + \dots + \phi_p X_{t-p} + \theta_1 \epsilon_{t-1} + \theta_2 \epsilon_{t-2} + \dots + \theta_q \epsilon_{t-q} + \epsilon_t$

$\phi_1 , \phi_2 , \dots , \phi_p$ : 自回归参数

$\theta_1 , \theta_2 , \dots , \theta_p$ : 滑动平均参数

$\epsilon_t$ : 白噪声误差项

步骤:

数据准备: 对非平稳序列进行差分处理
参数估计: 拟合(p, d, q)参数
模型验证: 检验模型的拟合效果
未来预测: 根据模型对未来的时间序列值进行预测

1.数据准备

理论背景：ARIMA模型适用于平稳时间序列，而非平稳时间序列需要通过差分处理使其平稳。平稳性是时间序列分析的基本要求，指序列的均值和方差不随时间变化，并且序列的自相关函数仅取决于滞后时间，而与时间点无关。如果时间序列不平稳，可能表现为以下特性：

均值随时间变化，呈现上升或下降趋势
方差随时间变化，数据波动幅度逐渐增大或减小
存在周期性或季节性波动

对于非平稳时间序列，常用以下方法进行平稳化处理：

差分法：通过计算相邻数据点的差分，去除趋势性，使数据平稳。差分公式为：
$\triangle X_t = X_t X_{t1}$
对数据多次差分后，可以逐步消除趋势性
对数变换：对数据取对数，减小数据的波动幅度
季节性调整：如果数据具有周期性波动特性，可以对每个周期的平均值进行调整

在模型构建过程中，模型的三个参数 $(p, d, q)$ 的选择非常关键：

p：自回归部分的阶数，表示当前值与p个滞后值之间的线性关系
d：差分次数，用于将非平稳时间序列转化为平稳时间序列
q：移动平均部分的阶数，表示当前值与α个随机误差项之间的关系

常用方法确定模型阶数包括：

绘制自相关函数（ACF）图：判断MA（移动平均）部分的阶数
绘制偏自相关函数（PACF）图：判断AR（自回归）部分的阶数

2.模型建立与参数估计

ARIMA模型的核心是通过最小二乘法拟合模型参数，使得模型预测值与实际值之间的误差平方和最小

通过历史数据，估计模型参数 $\phi, \theta$ ，需要先计算误差项 $\epsilon$ ，再通过最小二乘法拟合模型

3.未来预测

利用ARIMA模型预测未来值时，需要最近 $p$ 个时间序列值和 $q$ 个误差项值

回归

研究自变量(解释变量)和因变量(被解释变量)之间的关系

一元线性回归:
$y=\beta_0+\beta_1x+\epsilon$

$\epsilon$ : 通常是独立同分布的, 均值为 $0$ , 方差为 $\sigma^2$

找最优参数 $\beta_0$ 和 $\beta_1$ 使预测值 $\hat{y}$ 与实际值 $y$ 的偏差最小

多元线性回归:
$y=\beta_0+\beta_1 x_1+\beta_2 x_2+...+\beta_p x_p+\epsilon$

谁的 $\beta$ 越大, 说明哪个指标的权重更大, 更重要

数据准备阶段
- 数据收集
- 数据清洗
- 数据转换与标准化
特征选择与处理
- 检查变量间的线性关系
- 多重共线性检测
- 特征工程
模型构建阶段
- 确定模型
- 拆分数据集
- 模型训练
- 检查模型拟合
模型评估阶段
- 拟合优度 $R^2$
- 调整后的 $R^2$
- 均方误差MSE
- 均分根误差RMSE
- 平均绝对误差MAE
模型优化与改进
- 特征选择优化
- 非线性改进
- 数据变换
- 正则化方法

1.数据准备阶段

数据收集: 覆盖范围广, 具有代表性

数据清洗:

缺失值(删除, 填补)
异常值(箱线图识别)

检查一致性: 单位, 取值范围

数据转换与标准化: 略

2.特征选择与处理

检查变量间的线性关系:

散点图可视化, 相关矩阵
pearson相关系数

如果某个自变量和因变量的相关性很弱, 可以考虑剔除

多重共线性检测:

计算变量的方差膨胀因子(VIF), 一般认为 $V I F > 10$ 时说明共线性较强

如果存在多重共线性, 可以通过以下方法解决:

提出相关性强的变量
使用正则化方法(岭回归, LASSO回归)
PCA降维

特征工程:

添加新特征: 构建交互项( $x_1 \times x_2$ ) 或非线性项( $x^2$ )
编码分类变量: 对类别型变量进行处理(独热编码, 数值化编码)

3.模型构建阶段

确定模型形式: $y=\beta_0+\beta_1 x_1+\beta_2 x_2+...+\beta_p x_p+\epsilon$

拆分数据集: 留出法(7:3或8:2)

模型训练:

用训练集拟合多元线性回归模型, 常用最小二乘法OLS
通过最小化残差平方和RSS估计回归系数 $\beta$

检查模型拟合:

检查回归系数的显著性 -> 通过t检验和p值
检查模型的整体显著性 -> 通过F检验
确认误差项是否满足正态性和同方差性假设 -> 残差分析

4.模型评估阶段

拟合优度 $R^2$ : 反映模型对数据的解释能力, 范围[0, 1]
$R^2=1-\frac{RSS}{TSS}$
调整后的 $R^2$ : 适用于多元回归, 能够平衡模型复杂度
$R^2_{adjusted}=1-\frac{(1-R^2)(n-1)}{n-p-1}$
均方误差MSE:
$\frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2$
均分根误差RMSE:
$\sqrt{MSE}$
平均绝对误差MAE:
$\frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|$

5.模型优化与改进

特征选择优化:

逐步回归, LASSO回归, 岭回归 -> 最优特征子集
剔除不显著或相关性过高的变量

非线性改进:

如果数据存在非线性关系，可以引入多项式特征或通过非线性回归方法改进

数据变换:

对因变量或自变量进行对数、平方根或其他变换，改善模型的拟合效果

正则化方法:

使用**岭回归（L2正则化）或LASSO回归（L1正则化）**解决过拟合或多重共线性问题

例子:

马尔科夫预测模型

基于状态转移的预测方法

假设未来状态仅依赖于当前状态，而与历史状态无关

通过构建状态转移概率矩阵，描述系统从一个状态转移到另一个状态的概率，并利用该矩阵迭代预测未来状态的概率分布

数据准备：将历史数据转化为离散状态
状态转移概率矩阵计算：统计各状态间的转移次数，计算转移概率
状态预测：利用转移概率矩阵和当前状态分布，通过矩阵运算迭代预测未来状态分布

$P_{t+1}=P_t*T$

$P_t$ : 当前时刻的状态概率分布
$T$ : 状态转移概率矩阵
$P_{t+1}$ : 下一时刻的状态概率分布

1.数据准备

在这里插入图片描述

2.构建状态转移概率矩阵

在这里插入图片描述

3.预测未来状态分布

在这里插入图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

Rebuild-Z × GEIA AI 黑客松全方案｜48小时具身智能创新实验，两种创业路线同台碰撞

DAMO开发者矩阵

大模型评测与AI产品质量保障：第6篇 AI 的六块技术拼图

DAMO开发者矩阵

2026年第二季度中国人工智能产业发展报告：从“技术突围”到“产业深水区”

政策层面，6月堪称“AI政策月”——工信部印发《“人工智能+信息通信”创新发展实施意见》，商务部等八部门出台《关于加快“人工智能+消费”发展的实施意见》，《人工智能智能体互联》系列7项国家标准正式发布，国务院常务会议专题听取人工智能发展情况汇报并部署重点工作。这个季度，国产大模型首次跨越“生产级质变点”，国产AI芯片龙头市值突破万亿元大关，具身智能融资规模逼近2025年全年总和，中国AI研究在顶