引言
数据标准化和正则化是数据挖掘和机器学习的常用术语,本文简要阐述标准化和正则化的作用及区别,以便更好的从数据中发现和学习知识。
方法
标准化和正则化都是数据预处理过程中常用的方法,对于数据的进一步分析和处理具有重要意义。
数据标准化
数据标准化是将样本的属性缩放到某个指定的范围。
标准化的作用或意义是什么?
- 某些算法要求样本具有零均值和单位方差
- 需要消除样本不同属性具有不同量级时的影响
- 数量级的差异将导致量级较大的属性占据主导地位
- 数量级的差异将导致迭代收敛速度减慢
- 依赖于样本距离的算法对于数据的数量级非常敏感
标准化常用的两种方法是:min-max标准化(归一化) 和 z-score标准化(规范化)。
min-max标准化(归一化):对于每个属性,设 minA 和 maxA 分别为属性 A 的最小值和最大值,将 A 的一个原始值 x 通过 min-max 标准化映射成在区间 [0, 1] 的值 x' ,其公式为:
x
′
=
x
?
m
i
n
A
m
a
x
A
?
m
i
n
A
x' = \frac{x-minA}{maxA-minA}
x′=maxA?minAx?minA?
z-score标准化(规范化):基于原始数据的均值(mean)和标准差(standard deviation,简记为 std)进行数据的标准化。将 A 的一个原始值 x 使用z-score标准化到 x' 。z-score标准化方法适用于属性 A 的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况,其公式为:
x
′
=
x
?
m
e
a
n
s
t
d
x' = \frac{x-mean}{std}
x′=stdx?mean?
数据正则化
数据正则化是将样本的某个范数(如
L
1
L_{1}
L1?范数)缩放到单位1。正则的过程是针对单个样本的,将每个样本缩放到单位范数。通常使用二次型(如点积)或者其他核方法计算两个样本之间的相似性。首先对样本求
L
p
L_{p}
Lp?范数,然后对该样本的每个属性值除以该样本的
L
p
L_{p}
Lp?范数。
参考
内容节选自海豚大数据实验室。若想进一步了解可参阅这篇文章。
|