【记】数学建模中的数据处理方法

数据预处理在数学建模中必不可少，尤其是在数据分析类题目中和数据量非常大的题目中，不可盲目应用题目所给的数据，建议通过简单的筛查办法（如excel查找零值、加和检查量级是否合理、排序查看同一变量的数据分布情况等等）和可视化手段，先进行数据的分析处理，再确定解题思路。以上预处理办法都是理论，必须要进行实践才能真正理解每一个处理方法对应的应用场景，才能真正有效地得到数据预处理结果。从个人经验来说，均值填

moz与京

2771人浏览 · 2024-09-11 19:16:44

moz与京 · 2024-09-11 19:16:44 发布

一、缺失值处理

1.1 填补法

1. 平均值填补法：

少量缺失值：当数据集中缺失值较少时，平均值插值法可以快速且有效地填补缺失值，而不会显著影响数据的整体分布。
均匀分布：当数据分布较为均匀时，平均值插值法可以较好地反映数据的整体特征。
简单特征：对于特征较为简单、变化不大的数据集，平均值插值法可以提供合理的估计。
无明显模式：当缺失数据没有明显的模式或规律时，平均值插值法可以作为一种简单且有效的方法。
计算资源限制：在计算资源有限的情况下，平均值插值法由于其简单性和低计算复杂度，可以快速完成插值任务。
初步处理：在数据预处理阶段，平均值插值法可以作为一种初步的处理方法，快速填补缺失值，以便进行后续的数据分析和建模。

代码示例：

import pandas as pd
import numpy as np

# 创建一个包含缺失值的数据集
data = {
    'A': [1, 2, np.nan, 4, 5],
    'B': [5, np.nan, np.nan, 8, 10],
    'C': [np.nan, 2, 3, 4, 5]
}
df = pd.DataFrame(data)

# 使用平均值插值法填补缺失值
df_filled = df.fillna(df.mean())

print("原始数据集:")
print(df)
print("\n填补缺失值后的数据集:")
print(df_filled)

2. 中位数填补法：

数据分布不均匀：当数据分布不均匀，特别是存在偏态（如右偏或左偏）时，中位数插值法可以更好地反映数据的中心趋势，而不会受到极值的影响。
数据包含异常值：当数据集中存在异常值时，平均值插值法可能会受到异常值的影响，而中位数插值法则不会受到异常值的影响。
大数据集：在大数据集中，中位数插值法可以提供一个较为稳定的估计值，因为中位数不会受到少量异常值的影响。
数据特征复杂：对于具有复杂特征的数据集，中位数插值法可以提供一个较为稳定的估计值，而不会受到数据分布的影响。
少量缺失值：当数据集中缺失值较少时，中位数插值法可以快速且有效地填补缺失值，而不会显著影响数据的整体分布。
数据类型为数值型：中位数插值法主要适用于数值型数据，对于分类型数据，可能需要使用其他插值方法，如众数插值法。

示例代码:

import pandas as pd 
import numpy as np 
# 创建一个包含缺失值的数据集 
data = { 
    'A': [1, 2, np.nan, 4, 5], 
    'B': [5, np.nan, np.nan, 8, 10], 
    'C': [np.nan, 2, 3, 4, 5] 
} 
df = pd.DataFrame(data) 
# 使用中位数插值法填补缺失值 
df_filled = df.fillna(df.median()) print("原始数据集:") 
print(df) print("\n填补缺失值后的数据集:") 
print(df_filled)

注意事项:

① 中位数插值法可能会掩盖数据的真实分布。

② 对于具有明显模式的数据集，中位数插值法可能不适用，需要考虑其他插值方法。

③ 主要适用于数值型数据，对于分类型数据，需要使用其他方法，如众数插值法。

3. 众数填补法：

分类型数据：众数插值法特别适用于分类型数据，因为分类数据通常具有有限的取值范围，众数可以很好地反映数据的主要趋势。
数据集中分布：当数据集中某些值出现频率非常高时，众数插值法可以提供一个合理的估计值。
少量缺失值：当数据集中缺失值较少时，众数插值法可以快速且有效地填补缺失值，而不会显著影响数据的整体分布。
简单特征：对于特征较为简单、变化不大的数据集，众数插值法可以提供一个较为稳定的估计值。
数据异常值：当数据集中存在异常值时，众数插值法不会受到异常值的影响，因为众数是基于频率最高的值。

示例代码：

import pandas as pd
import numpy as np

# 创建一个包含缺失值的数据集
data = {
    'A': [1, 2, np.nan, 4, 5],
    'B': ['a', np.nan, np.nan, 'a', 'b'],
    'C': [np.nan, 2, 3, 4, 5]
}
df = pd.DataFrame(data)

# 使用众数插值法填补缺失值
df_filled = df.fillna(df.mode().iloc[0])

print("原始数据集:")
print(df)
print("\n填补缺失值后的数据集:")
print(df_filled)

4. 零值填补法：

根据题目的要求和实际情况，缺失值也可以直接用0值填补。同样道理，我们也可以用其他符合题目情景的某个数字去填补。

5. 邻近值填补法：

用缺失值附近的数据进行填补，比如2020年的C题C109，补全数据的方式是找到下一年（或上一年）完整的数据，进行等比例补全。

均匀分布：当数据分布较为均匀时，邻近值填补法可以提供一个合理的估计值。
特征简单：对于特征较为简单、变化不大甚至有明显规律的数据集，邻近值填补法可以提供一个较为稳定的估计值。
缺失值较少：当数据集中缺失值较少时，邻近值填补法可以快速且有效地填补缺失值，而不会显著影响数据的整体分布。
线性关系：当数据点之间的关系较为线性时，邻近值填补法可以提供一个较为准确的估计值。
数值型数据：邻近值填补法主要适用于数值型数据，对于分类型数据，可能需要使用其他插值方法，如众数插值法。
数据点之间距离小：当数据点之间的距离较小时，邻近值填补法可以提供一个较为准确的估计值。

1.2 插值法

数据插值通过已知数据点的值来估计未知数据点的值，填补缺失数据，使数据集更加完整和连续。

一般地，如许多实际问题中，虽然根据实际情况可以断定所考虑的函数f(x)在我们考虑的区间上存在且连续，但却难以找到它的解析表达式，只能通过实验和观测得到该函数在有限个点上的函数值(即一张函数表)。

显然，要利用这张函数表来分析函数的性态，甚至直接求出在其他一些点上的函数值是非常困难的。在有些情况下，虽然可以给出函数f(x)的解析表达式，但由于结构相当复杂，使用起来也很不方便。面对这些情况，希望根据所得函数表(或结构复杂的解析表达式)，构造某个形式上简单的函数 $\psi (x)$ 作为未知函数f(x)的近似。

插值法是解决此类问题的一种常用的经典方法，它是进一步学习数值计算的基础，也被广泛地应用于生产实际和科学研究中。

简单介绍在建模中常用的几个插值方法：

1. 拉格朗日插值法：

① 基本插值多项式：

拉格朗日插值法的核心思想是构建一个多项式函数，使其在已知数据点处的值与已知数据点的值相同。

先考虑简单的插值问题：对节点 $x_{i}$ (i=0,1,……,n)中任意一点 $x_{k}$ 作一个n次多项式，使得它在该点上取值为1，而在其余点取值为0，即满足插值条件（式1.2.1）

$l_{k}(x_{i})=\left\{\begin{matrix} 1,i=k\\ 0,i\neq k \end{matrix}\right.$

所以n个点都是n次多项式的零点，故可设：(式1.2.2）

$l_{k}(x)$ = $A_{k}(x-x_{0})(x-x_{1})$ … $(x-x_{k-1})(x-x_{k+1})$ … $(x-x_{n})$

$A_{k}$ 为待定系数。

又因为 $l_{k}(x_{i})=1$ ，也就是说

$l_{k}(x)$ = $A_{k}(x-x_{0})(x-x_{1})$ … $(x-x_{k-1})(x-x_{k+1})$ … $(x-x_{n})=1$

$A_{k}=\frac{1}{(x_{k}-x_{0})(x_{k}-x_{1})...(x_{k}-x_{k-1})(x_{k}-x_{k+1})...(x_{k}-x_{n})}$

得到：(式1.2.3)

$l_{k}(x)=\frac{(x-x_{0})(x-x_{1})...(x-x_{k-1})(x-x_{k+1})...(x-x_{n})}{(x_{k}-x_{0})(x_{k}-x_{1})...(x_{k}-x_{k-1})(x_{k}-x_{k+1})...(x_{k}-x_{n})}$

对应于每一节点 $x_{k}$ 都能求出一个满足插值条件（式1.2.1）的n次插值多项式（式1.2.3），并由此求出n+1个n次插值多项式 $l_{0}(x),l_{1}(x),...,l_{n}(x)$ ，这组多项式仅与节点的取法有关，称它们为在n+1个节点上的n次基本插值多项式（n次插值基函数），即拉格朗日插值基函数。