一、标准化与归一化的概念
标准化:通过特征的平均值和标准差,将特征缩放成一个标准的正态分布,缩放后均值为0,方差为1。但数值并非一定是正态的。特别适用于数据的最大值和最小值未知,或存在孤立点。
归一化:利用特征的最大值和最小值,将特征缩放到[0,1]区间
二、标准化
标准化表达式:样本值减去均值除以标准差
x
′
=
x
−
mean
(
x
)
σ
x^{\prime}=\frac{x-\operatorname{mean}(x)}{\sigma}
x′=σx−mean(x)
标准化是为了方便数据的下一步处理,标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。
三、归一化
归一化表达式:样本值减去均值除以最大值与最小值之差
x
′
=
x
−
min
(
x
)
max
(
x
)
−
min
(
x
)
x^{\prime}=\frac{x-\min (x)}{\max (x)-\min (x)}
x′=max(x)−min(x)x−min(x)
不同特征往往具有不同的量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据归一化处理,以解决数据指标之间的可比性。原始数据经过数据归一化处理后,各指标处于[0,1]之间。
四、应用场景
(1)对处理后的数据范围有严格要求,使用归一化
(2)数据存在异常值和较多噪音,此时归一化受异常值影响,用标准化
(3)在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,标准化表现更好
(4)在使用梯度下降的方法求解最优化问题时, 归一化/标准化后可以加快梯度下降的求解速度,即提升模型的收敛速度。
(5)概率模型(树形模型)不需要归一化,因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率,如决策树、RF。
(6)当采用普通的线性回归的时候,是无需标准化的。因为标准化前后,不会影响线性回归预测值。
(7)在不涉及距离度量、协方差计算、数据不符合正太分布的时候,使用归一化合适
五、python实现
5.1 归一化
from sklearn.preprocessing import MinMaxScaler
# 创建MinMaxScaler()对象
preprocess = MinMaxScaler()
data = [[10, 10, 15, 10],
[5, 1, 21, 5],
[1, 2, 15, 12]]
data = preprocess.fit_transform(data)
print(data)
5.2 标准化
from sklearn.preprocessing import StandardScaler
# 创建StandardScaler()对象
preprocess = StandardScaler()
data = [[10, 10, 15, 10],
[5, 1, 21, 5],
[1, 2, 15, 12]]
data = preprocess.fit_transform(data)
print(data)
本文介绍了数据预处理中的两种重要方法——归一化和标准化。归一化是将数据缩放到[0,1]区间,而标准化则是将数据转换为均值为0,标准差为1的标准正态分布。归一化适合于数据范围受限的情况,而标准化在处理异常值和噪声时更为合适。在机器学习中,标准化在计算距离、聚类和降维时效果更佳,而归一化在梯度下降等优化过程中能加速收敛。此外,对于概率模型和线性回归,可能不需要进行此类预处理。文章提供了Python中使用`MinMaxScaler`和`StandardScaler`进行归一化和标准化的示例代码。
1929

被折叠的 条评论
为什么被折叠?



