[完整版高质量]2025大湾区杯粤港澳金融数学建模A题数据代码思路文章完整讲解:事件驱动型投资分类及套利策略

事件集合EeEe，事件eee的时间为t0et_0(e)t0e，受影响标的集合为SeSe。

小陈爱建模

1705人浏览 · 2025-11-01 17:04:52

小陈爱建模 · 2025-11-01 17:04:52 发布

已更新完整文章+数据整理+全部1-3问代码完整内容请看文末简介

在这里插入图片描述

摘要
本研究围绕中国A股市场中事件驱动型投资的量化分析展开，旨在通过对政策、监管、公司行为与突发事件等多种市场事件的建模与数据分析，构建一套系统的事件驱动投资策略模型。在过去一年（2024年9月至2025年9月）内，A股市场受多重政策与行业变化影响，事件型交易特征显著，因此本课题对事件影响、收益预测与资产配置进行了系统建模与实证验证。
在问题一中，首先对不同类型事件进行了定性分类与量化处理。研究通过提取事件的时间、类别、方向与强度等特征，构建了事件影响的数学描述模型。利用指数衰减与幂律混合核函数对事件的时序影响进行建模，并结合股票历史价格数据分析其在短期内对超额收益的影响。结果显示，不同事件类型对市场反应具有显著差异，其中政策与行业监管类事件的市场驱动力最强，对情绪与资金流向影响明显。
在问题二中，基于问题一的事件特征与市场响应结果，建立了事件收益预测模型。研究采用线性回归、岭回归、随机森林、Gradient Boosting / XGBoost / LightGBM等机器学习方法，以事件强度、行业背景、市场波动率等为输入特征，对未来短期累计收益进行预测。通过时间序列切分与样本外验证，模型的拟合优度（R²）与信息系数（IC）均表现良好，岭回归与随机森林的预测精度最高，表明事件特征对未来收益具有较高解释力。可视化结果显示模型预测值与实际收益呈正相关，验证了事件信号的可预测性。
在问题三中，研究将预测结果转化为投资权重，构建了事件驱动投资组合优化模型。该模型以马科维茨均值-方差理论为基础，并引入交易成本与换手惩罚项，形成带约束的均值-方差最优化问题。模型以近端梯度法（Proximal Gradient / FISTA）求解，在动态风险协方差与成本约束下实现最优权重分配。通过对实际市场数据的模拟回测，组合年化收益率达到8%至12%，夏普比约为0.9至1.1，最大回撤控制在10%以内，表明模型在风险控制与收益平衡方面具有良好表现。策略的净值曲线平稳上升，收益分布呈轻度右偏，显示出稳健的事件驱动特征。
本研究实现了“事件信号生成—收益预测—组合优化”的量化闭环。事件驱动型投资策略在政策与宏观预期明确的环境下尤为有效，具有显著的风险调整后收益优势。模型的稳定性验证了事件信号在A股市场中的实际可操作性。
关键词：事件驱动投资；A股市场；量化模型；均值-方差优化；机器学习；近端梯度算法；风险控制；交易成本；政策冲击；金融数学建模。

目录
摘要 1
一、赛题背景深度分析 5
二、问题重述 5
三、问题分析 6
3.1. 问题本质与核心挑战 6
3.2. 问题一深度分析：事件分类与数学建模 6
3.2.1 事件特征的数学化表达 6
3.2.2 分类方法选择 7
3.3. 问题二深度分析：价格波动预测建模 7
3.3.1 多因子模型架构 7
3.3.2 预测模型技术路线 7
3.3.3 模型验证与调优 8
3.4. 问题三深度分析：套利策略与风险控制 8
3.4.1 均值-方差优化框架 8
3.4.2 尾部风险控制 8
3.4.3 止损机制设计 8
四、模型假设 9
五、模型原理 12
5.1 非齐次泊松过程（NHPP） 12
5.2 Hawkes过程（自激过程） 12
5.3 线性回归（OLS） 14
5.4岭回归（L2 正则） 14
5.5 随机森林回归（非线性基线） 15
5.6事件驱动多资产最优化组合模型（Event-Driven Portfolio Optimization Model） 16
5.7 近端梯度法（Proximal Gradient Method / FISTA 加速） 18
六、问题一模型建立与求解:事件分类与数学特征建模 20
6.1数据清洗、整合 20
6.2四类事件的量化分析方法 24
（1）政策驱动类（Policy） 26
（2）行业监管类（Regulation） 26
（3）公司事件类（Corporate） 27
（4）突发事件类（Exogenous） 27
6.3模型建立 29
6.3.1 参数设定 29
6.3.2事件特征工程 30
6.3.3冲击–衰减核（Impact–Decay Kernel）与参数估计 31
6.3.4事件窗标签（供评估/训练/回测） 32
6.3.5事件到达过程:非齐次泊松（NHPP）、Hawkes（自激）过程 32
1 非齐次泊松（NHPP） 32
2 Hawkes（自激）过程 33
6.3.6模型评价与诊断 33
伪代码 33
6.4模型求解 34

市场背景与数据面 34
事件特征与强度 35
衰减核参数与类型对比 36
单事件拟合质量与时间结构 36
事件窗标签（收益与超额） 40
小结 40
七、问题二模型建立与求解: 事件收益预测结果分析 41
7.1 参数说明 41
7.2 特征工程 41
1 直接特征（事件层） 41
2 标准化（仅在训练集） 42
7.3 时间防泄露切分与交叉验证 42
7.4 基线预测模型 42
1 线性回归（OLS） 42
2 岭回归（L2 正则） 42
3 随机森林回归（非线性基线） 42
4 Gradient Boosting / XGBoost / LightGBM 43
7.5 信号生成与事件级回测 43
1 方向与仓位 43
2 Top-K 选择 43
3 交易成本与成本后收益 44
4 组合累计收益（事件序列） 44
7.6 诊断与稳健性 44
7.5 端到端流程伪代码 45
7.6 模型求解与可视化分析 45

结果分析 45
特征重要性与解释性 46
可视化分析 47
事件收益曲线与策略表现 47
稳健性与诊断结果 48
结果总结 49
八、问题三模型建立与求解: 最优化组合模型分析 49
8.1 参数说明 50
8.2由“事件预测”到“标的期望收益”的映射 50
1 事件强度到逐日“期望超额收益冲击” 50
2 事件到标的聚合（当日 alpha 预期） 50
8.3组合优化模型构建 51
8.4 CVaR 风险替代 51
8.5 Kelly/半 Kelly 头寸缩放 52
8.5 执行模型与滑点（Almgren–Chriss ） 52
8.6 风险与止盈止损 52
Kelly/降杠杆 53
8.7模型求解与结果分析 53
8.7.1关键超参数 53
8.7.2绩效指标分析 54
8.7.3可视化分析 54
1.净值曲线 54
2.日收益分布 55
正态性与厚尾 55
成本影响 55
杠杆与换手 56
Alpha 热力/权重热图 56
归因与分层 56
稳健性与灵敏度 57
九、模型优缺点与模型推广 57
9.1. 模型优缺点 57
9.2 模型推广 58

在这里插入图片描述

在这里插入图片描述

问题二内容展示

问题二：事件收益预测与信号生成的详细建模说明（含公式）

目标：在问题一完成“事件量化 + 衰减核参数 + 事件窗标签”的基础上，构建监督学习模型预测事件后的累计超额收益并转化为可交易信号，评估在成本后的事件级绩效。

定义

事件集合 $E={e}\mathcal{E}=\{e\}$ ，事件 $e$ 的时间为 $t_0(e)$ ，受影响标的集合为 $S(e)\mathcal{S}(e)$ 。
市场等权日收益： $rtmktr^{mkt}_t$ ；个股日收益： $r_{i,t}$ 。
事件窗标签：

$\text{AEXCESS}_W(e)=\sum_{h=0}^{W}\Big(\overline{r}_{\mathcal{S}(e),t_0+h}-r^{mkt}_{t_0+h}\Big),\quad \overline{r}_{\mathcal{S},t}=\tfrac{1}{|\mathcal{S}|}\sum_{i\in \mathcal{S}} r_{i,t}.$
预测目标（主任务）：

$y_e^{(W)} \equiv \text{AEXCESS}_W(e)\quad (W\in\{1,3,5,10\})$

以 $W = 3$ 为主评估窗（可并行多个 $W$ ）。

1. 特征工程（来自问题一 + 派生）

1.1 直接特征（事件层）

对每个事件 $e$ ，构造向量 $xe\mathbf{x}_e$ ：

$source_cred⏟事件语义与强度,τ1, γ, w1, β0, half_life_prior⏟核参数与先验,n_codes⏟受影响股票数,type_onehot⏟类型独热编码]. \mathbf{x}_e=\Big[ \underbrace{\text{dir},\ \text{imp},\ \text{breadth},\ \text{surprise},\ \text{sentiment},\ \text{source\_cred}}_{\text{事件语义与强度}}, \underbrace{\tau_1,\ \gamma,\ w_1,\ \beta_0,\ \text{half\_life\_prior}}_{\text{核参数与先验}}, \underbrace{\text{n\_codes}}_{\text{受影响股票数}}, \underbrace{\text{type\_onehot}}_{\text{类型独热编码}}\Big].$

说明：imp 为分位数归一化后的强度；n_codes 为 codes 的数量；type_onehot 是 $policy/regulation/corporate/exogenous\text{policy}/\text{regulation}/\text{corporate}/\text{exogenous}$ 的独热。
可选将 $CUMRETw\text{CUMRET}_{w}$ / $VOLw\text{VOL}_{w}$ （问题一的标签）作为元特征辅助预测。

1.2 标准化（仅在训练集）

为避免尺度影响与数据泄露，对训练集特征做标准化，并将参数应用到验证/测试：

$\tilde{x}_{e,j}=\frac{x_{e,j}-\mu_j^{train}}{\sigma_j^{train}+10^{-12}}.$

2. 时间防泄露切分与交叉验证

2.1 时间排序 + 样本外切分

将事件按 $t_0$ 升序排序，取最后 $≈20%\approx 20\%$ 作为样本外集合 $Etest\mathcal{E}_{test}$ ，其余为训练集合 $Etrain\mathcal{E}_{train}$ 。

2.2 时间块交叉验证（可选 Purged K-Fold）

将 $Etrain\mathcal{E}_{train}$ 再按时间切为 $K$ 个相邻块做交叉验证；每次用历史块训练、未来块验证，中间留出gap 天以消除相邻泄露。

3. 基线预测模型与目标函数

3.1 线性回归（OLS）

$y^e=w⊤x~e+b,min⁡w,b ∑e∈Etrain(ye−y^e)2. \hat{y}_e = \mathbf{w}^\top \tilde{\mathbf{x}}_e + b,\qquad \min_{\mathbf{w},b}\ \sum_{e\in\mathcal{E}_{train}}\big(y_e - \hat{y}_e\big)^2.$

3.2 岭回归（L2 正则）

$y^e=w⊤x~e+b,min⁡w,b ∑e(ye−y^e)2+α∥w∥22, \hat{y}_e = \mathbf{w}^\top \tilde{\mathbf{x}}_e + b,\qquad \min_{\mathbf{w},b}\ \sum_{e}\big(y_e-\hat{y}_e\big)^2 + \alpha\|\mathbf{w}\|_2^2,$

$α>0\alpha>0$ 通过时间块交叉验证选择（如 $α∈{10−3,…,103}\alpha\in\{10^{-3},\dots,10^3\}$ ）。

3.3 随机森林回归（非线性基线）

以 $x~e\tilde{\mathbf{x}}_e$ 为输入，训练回归森林 $F\mathcal{F}$ ，输出 $y^e=F(x~e)\hat{y}_e=\mathcal{F}(\tilde{\mathbf{x}}_e)$ 。
重要性（Gini/方差减少）用于解释：

$\text{FI}(j) \propto \sum_{\text{splits on }j}\Delta(\text{node impurity}).$

可扩展：Gradient Boosting / XGBoost / LightGBM；或将线性与树模型做简单平均集成
$y^eens=λy^eridge+(1−λ)y^erf, λ∈[0,1]\hat{y}_e^{ens}=\lambda \hat{y}_e^{ridge}+(1-\lambda)\hat{y}_e^{rf},\ \lambda\in[0,1]$ 。

4. 评估指标（样本外）

决定系数： $R2=1−∑(y−y^)2∑(y−yˉ)2\displaystyle R^2=1-\frac{\sum (y-\hat{y})^2}{\sum (y-\bar{y})^2}$ 。
平均绝对误差： $MAE=1n∑∣y−y^∣\displaystyle \text{MAE}=\frac{1}{n}\sum |y-\hat{y}|$ 。
相关性/信息比率（可选）： $ρ(y^,y)\rho(\hat{y},y)$ 、 $IR=E[y−y^]std(y−y^)\text{IR}=\frac{\mathbb{E}[y-\hat{y}]}{\text{std}(y-\hat{y})}$ 。
命中率（方向正确率）： $Pr⁡[sign(y^)=sign(y)]\Pr[\text{sign}(\hat{y})=\text{sign}(y)]$ 。

5. 信号生成与事件级回测

5.1 方向与仓位

方向： $sidee=sign(y^e)∈{−1,+1}\text{side}_e=\text{sign}(\hat{y}_e)\in\{-1,+1\}$ 。
强度权重（可选）：用 $∣y^e∣|\hat{y}_e|$ 或软归一化：

$we=exp⁡(κ∣y^e∣)∑e′∈Bexp⁡(κ∣y^e′∣), w_e = \frac{\exp(\kappa |\hat{y}_e|)}{\sum_{e'\in \mathcal{B}} \exp(\kappa |\hat{y}_{e'}|)},$

其中 $B\mathcal{B}$ 是当期可交易的事件篮子（如样本外集或当月事件）， $κ>0\kappa>0$ 控制尖锐度。

5.2 Top-K 选择

按 $y^e\hat{y}_e$ 从大到小排序，取前 $K$ 做多头，后 $K$ 做空头；或仅取前 $K$ 做多。
给定持有窗 $W$ ，单事件成本前收益近似用标签代替：

$\text{PnL}^{gross}_e(W)=\text{side}_e\cdot \text{AEXCESS}_W(e).$

5.3 交易成本与成本后收益

设单边成本为 $c$ （bp），则开仓 + 平仓共两次：

$\text{PnL}^{net}_e(W)=\text{PnL}^{gross}_e(W)-2\cdot \frac{c}{10{,}000}.$

5.4 组合累计收益（事件序列）

将样本外事件按时间排序，累计乘积：

$\text{EQ}_t=(1+\text{PnL}^{net}_{e_1})\times \cdots \times (1+\text{PnL}^{net}_{e_t})-1.$

更贴近实际，可用问题一的衰减核做持仓时钟，在 $h = 0.. W$ 内分日减仓：

$ω(h)=κ(h;τ^1,γ^,w^1)∑u=0Wκ(u;τ^1,γ^,w^1),PnLegross(W)≈∑h=0Wω(h)⋅(r‾S,t0+h−rt0+hmkt). \omega(h)=\frac{\kappa(h;\hat{\tau}_1,\hat{\gamma},\hat{w}_1)}{\sum_{u=0}^{W}\kappa(u;\hat{\tau}_1,\hat{\gamma},\hat{w}_1)}, \quad \text{PnL}^{gross}_e(W)\approx \sum_{h=0}^{W}\omega(h)\cdot \Big(\overline{r}_{\mathcal{S},t_0+h}-r^{mkt}_{t_0+h}\Big).$

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

LangChain框架详解：零基础入门大模型应用开发！

DAMO开发者矩阵

2026第一弹！中国“钢铁侠”稚晖君发布可装进背包的人形机器人Q1，具身智能走进生活

DAMO开发者矩阵

电科毕设基于单片机的姿态检测与可视化系统(源码+硬件+论文)

本文介绍了一种基于单片机的姿态检测与可视化系统设计方案。系统采用MPU6050惯性传感器采集加速度和角速度数据，通过Arduino单片机进行数据处理，结合卡尔曼滤波算法实现姿态解算，最终在Processing平台完成可视化展示。文章详细阐述了MPU6050工作原理、I2C通信协议、倾角计算方法以及核心软件设计，包括数据采集、滤波处理和姿态解算等关键代码实现。该系统具有体积小、成本低、精度高的特点，