2025亚太杯中文赛数学建模C题完整论文更新:基于Quantum Boosting的二分类模型问题,完整论文见文末名片

摘要

本文基于Iris数据集的Setosa与Versicolor二分类任务,围绕Quantum Boosting(QBoost)方法展开研究,通过数据预处理构建弱分类器,将集成问题转化为二次无约束二进制优化(QUBO)模型,并利用Kaiwu SDK模拟退火求解器求解,最终完成强分类器的构建与性能评估。

针对问题一,要求从Iris数据集筛选二分类样本并进行预处理,构建一组弱分类器。首先筛选Setosa(标签0)和Versicolor(标签1)共100个样本,将标签转换为{-1,1}以适配QBoost需求。采用Shapiro-Wilk检验判断特征分布,对正态分布特征用Z-score标准化,偏态分布特征用MAD标准化,有效消除量纲影响并增强对异常值的稳健性。按7:3分层抽样划分训练集与测试集,确保类别比例一致。基于互信息筛选Top-3高判别特征,生成15种多特征组合,通过分位数阈值搜索确定最优分类阈值,再经互信息多样性筛选,最终保留8-12个准确率>55%且低冗余的弱分类器,为后续集成提供基础组件。

针对问题二,需将弱分类器集成转化为QUBO模型。以最小化强分类器分类误差为目标,引入hinge损失的二阶泰勒展开近似误分类率,提升边界样本损失近似精度。设计量子感知自适应正则化机制,包括基于分类器准确率的个体惩罚系数(抑制低性能分类器)和基于分类器相关性的成对惩罚系数(促进多样性组合)。通过严格数学推导,将损失函数与正则化项融合为QUBO矩阵,对角线元素反映个体分类器贡献与惩罚,非对角线元素体现分类器交互损失与多样性约束,实现集成优化目标向量子可求解形式的转化。

针对问题三,利用Kaiwu SDK求解QUBO模型并评估强分类器性能。采用“量子模拟退火全局探索+L-BFGS局部精修”的变分混合求解策略,模拟退火以初始温度T₀=0.2×maxQjk、降温速率α=0.98迭代10⁴次获取初始解,L-BFGS精修200次得到最优弱分类器组合。构建强分类器H(x)=sign(Σxj*hj(x)),在测试集上评估准确率、精确率、召回率等指标。通过SHAP值量化各弱分类器贡献,FGSM扰动测试对抗性稳健性,决策边界可视化展示集成模型对特征空间的划分能力,全面验证模型的有效性、可解释性与泛化能力。

最后,对模型进行综合评价。所构建的QBoost模型在Iris二分类任务中表现出较高的分类准确率和稳健性,弱分类器的多样性筛选与量子感知正则化提升了集成性能。但模型对弱分类器数量较敏感,且QUBO求解精度受模拟退火参数影响。未来可探索自适应弱分类器生成方法,并结合真实量子硬件进一步提升求解效率。

关键词:QBoost;量子计算;QUBO模型;弱分类器;模拟退火;二分类

问题重述

问题背景:

2025 年第十五届 APMCM 亚太地区大学生数学建模竞赛 C 题基于 Quantum Boosting 的二分类模型问题。集成学习是机器学习领域的核心技术之一,其主要通过组合多个弱分类器构建性能优异的强分类器。Boosting 作为集成学习的经典方法,是通过迭代训练弱分类器并调整样本权重,以达到逐步提升模型对复杂数据的预测能力。常见的 Boosting 算法如 AdaBoost、Gradient Boosting 等,已广泛应用于分类、回归等任务,展现了其强大的实用性。近年来,量子计算技术和专用硬件迅速发展,Quantum Boosting(QBoost) 作为一种新兴的 Boosting 变体,为传统机器学习注入了新的活力。QBoost 通过将 Boosting 问题转化为二次无约束二进制优化(QUBO)问题,利用相干光量子计算机等硬件的高效并行计算能力,快速求解最优弱分类器组合及其权重。这种方法不仅提升计算效率,还为探索量子优化与机器学习的交叉领域提供独特视角。现要求你们队基于 QBoost 方法完成一个二分类任务。本赛题的任务是基于指定的数据集设计弱分类器、构建 QUBO 模型,并利用 Kaiwu SDK 中模拟退火求解器求解模型。参赛者需提交一份完整的报告和源代码作为最终成果。报告应涵盖数据预处理、模型设计、实现过程及性能分析等内容,需符合标准期刊出版格式,包含摘要与关键词、引言、方法、实验、结论、参考文献等章节,以学术规范引用所使用的方法、工具及相关文献。评审将综合考虑模型的设计、代码的质量、结果的可信度、性能分析的深入程度以及报告论文的清晰度与逻辑性等方面。温馨提示:1、每位参赛者都需要在网站学习量子计算基础知识,并通过知识地图考核。学习网址:相干光量子计算云平台-玻色量子 2、Kaiwu SDK 安装包可通过访问链接(相干光量子计算云平台-玻色量子)进行下载,安装说明可参考链接(【最新】Kaiwu SDK 保姆级全流程安装使用指南_哔哩哔哩_bilibili)。3、Iris 数据集(鸢尾花数据集)是机器学习领域最经典的分类数据集之一,由统计学家 Fisher 于 1936 年提出。该数据集包含 150 个样本,分别来自三种鸢尾花(Setosa、Versicolor 和 Virginica),每个样本具有四个特征:萼片长度、萼片宽度、花瓣长度和花瓣宽度。Iris 数据集广泛用于算法测试,在 Python 中可通过 scikit - learn 库直接加载,或从 UCI 机器学习库网站 (https://archive.ics.uci.edu/dataset/53/iris)免费下载。对于比赛有任何技术及资源疑问,可通过扫描下述二维码咨询。

问题一:

问题 1 数据预处理与弱分类器构建。使用 Iris 数据集,选择 Setosa(标签 0)和 Versicolor(标签 1)两个类别,得到 100 个样本,每样本 4 个特征(萼片长度、萼片宽度、花瓣长度、花瓣宽度)。进行预处理(如标准化),并划分为训练集和测试集。说明预处理步骤。基于所选数据集的特征,构造一组 M 个弱分类器。每个弱分类器可以基于单一特征或特征的简单组合(例如,基于阈值的决策规则)。记录每个弱分类器的预测结果 

 ,其中 

 表示弱分类器索引, 

 表示样本索引。计算并记录每个弱分类器在训练集上的分类准确率。

问题二:

问题 2 QBoost 建模与 QUBO 转化。将弱分类器集成问题转化为二次无约束二进制优化(QUBO)模型。目标是最小化强分类器的分类误差,即优化弱分类器权重,使加权组合在训练数据上的误分类率最低。为避免过拟合,可通过引入正则化项以限制选用的弱分类器数量。要求明确定义 QUBO 模型的目标函数和约束条件。

问题三:

问题 3 利用 Kaiwu SDK 进行求解与模型评估。使用 Kaiwu SDK 中的模拟退火求解器,求解得到最优的弱分类器权重组合。分析所选弱分类器的特征及其组合方式,解释所选弱分类器的组合及其对模型性能的贡献。在测试集上评估最终强分类器的准确率等指标,并分析模型的泛化能力。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐