【数据分析】数据的归一化与标准化

归一化与标准化的相同点、异同点与计算方式

@潇然

4836人浏览 · 2023-04-18 10:56:27

@潇然 · 2023-04-18 10:56:27 发布

归一化与标准化

归一化和标准化是数据预处理时常用的方法，它们都可以将数据映射到特定的区间内，但是具体的实现方式和应用场景有所不同。

在这里插入图片描述

1 归一化与标准化的相同点

都能够处理特征值之间的差异性，避免特征值之间的度量不一致或者差异过大
都可以提高模型的稳定性和准确性

2 归一化与标准化的异同点

归一化和标准化的差异在于：归一化是将特征值缩放到0-1的范围内，而标准化是将数据按照均值为0、方差为1进行缩放。

具体来说：

归一化:可以消除不同规模或数量级的特征值之间的差异，但是无法处理异常值或数据分布不均的情况。归一化方法有最小-最大归一化、对数函数归一化等
标准化:可以处理任意分布的数据，适用于特征值呈正态分布或者近似正态分布的情况，并且能够处理异常值。标准化方法有z-score标准化、小数定标标准化等
归一化不会改变数据分布，标准化会改变数据分布

3 归一化标准化的适用场景

归一化:适用于特征值的规模较大，需要将其缩放到[0,1]范围内的情况
标准化:适用于数据分布不均匀，需要进行均值和方差的调整

4 计算公式

最小-最大标准化(离差标准化): $\frac{x - \min(x)}{\max(x) - \min(x)}$
对数函数归一化: $\log(\frac{x}{c})$
均值归一化： $\frac{x - mean}{\max(x) - \min(x)}$
z-score标准化： $\frac{x - \mu}{\sigma}$
小数定标标准化： $\frac{x}{10^k}$

其中， $x$ 是原始数据， $x^{'}$ 是归一化或标准化后的数据， $\min(x)$ 和 $\max(x)$ 分别是原始数据的最小值和最大值， $c$ 是常数， $\mu$ 和 $\sigma$ 分别是原始数据的均值和标准差， $k$ 是位移数，mean是均值。

补充

对数函数归一化常数c的计算:
对数函数的归一化常数可以通过求解积分或利用已知的归一化条件来确定。

假设我们要归一化的对数函数为 $f (x)$ ，其形式可能是 $\log(x)$ 或 $\ln(x)$ 等。首先，我们需要确定函数的定义域，通常情况下，对数函数的定义域为正实数集 $(0,\infty)$ 。

接下来，我们可以根据归一化条件求解归一化常数。如果已知对数函数在某个区间上的积分值，则可以通过求解该积分并将结果与1相除来确定归一化常数。例如，对于 $\ln(x)$ 函数在 $[1, e]$ 上归一化，我们可以按照以下步骤进行：

$\begin{aligned} \int_1^e \left(\frac{1}{x} \right)^2 dx &= \int_1^e \frac{1}{x^2}dx \\ &= \left[-\frac{1}{x}\right]_1^e \\ &= -\frac{1}{e} + 1 \end{aligned}$

因此，归一化常数为：

$\frac{1}{-\frac{1}{e}+1} = e$

即归一化后的函数为 $\frac{1}{x}\ln(x)$ 。

另外，还存在其他的归一化条件，比如要求归一化后的函数在整个定义域上面积为1。这种情况下，我们需要对函数在整个定义域上的积分进行求解并将结果与1相除，以得到归一化常数。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

天天说的 Agent，到底是啥？？？

DAMO开发者矩阵

越疆焊接机器人实测：免示教到底是不是噱头？8年集成商的选型避坑指南

如果你问我，高端制造中哪些协作机器人达到工业级可靠性？我的建议是，一定要看那些经过大厂验证、有底层核心技术的品牌。目前国内市场上，越疆确实跑到了前面。据我了解，在2025年协作机器人全球出货量第一的宝座上，越疆占了很重的位置，并且已经拿下了80余家世界500强客户。而且对于大家关心的安全性，他们也率先通过了ISO 10218:2025国际最新安全标准认证。所以，如果你厂里正被“招工难、换型慢、品质