数据处理之 数据归一化 数据标准化(归一化)-Normalization
来自百度百科的解释:
数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,再加总才能得出正确结果。数据无量纲化处理主要解决数据的可比性。
通俗的说就是把所有的数据“按比例”增大缩小到某个范围 归一化就是把范围限制在0~1
1、min-max标准化(Min-maxnormalization) 也叫离差标准化、线性归一化,对原始数据的线性变换,使结果落到[0,1]区间
x
i
′
=
x
i
?
m
i
n
(
x
j
)
(
0
≤
j
≤
n
)
m
a
x
(
x
j
)
(
0
≤
j
≤
n
)
?
m
i
n
(
x
j
)
(
0
≤
j
≤
n
)
x^{'}_{i}=\frac{x_{i}-min(x_{j})(0\le{j}\le{n})}{max(x_{j})(0\le{j}\le{n})-min(x_{j})(0\le{j}\le{n})}
xi′?=max(xj?)(0≤j≤n)?min(xj?)(0≤j≤n)xi??min(xj?)(0≤j≤n)?
优点:适用在数值较集中的情况 缺点:当有新数据加入时,可能导致max和min的变化,不稳定
2.z-score 标准化(zero-meannormalization) 也称标准差归一化,也叫Z-score标准化
x
′
=
x
?
μ
σ
x'=\frac{x-μ}{σ}
x′=σx?μ?
μ
:
均
值
?
?
?
μ
=
1
n
∑
i
=
1
n
x
i
μ:均值---μ=\frac{1}{n}\sum_{i=1}^{n}x_{i}
μ:均值???μ=n1?i=1∑n?xi?
σ
:
标
准
差
?
?
σ
=
1
n
?
1
∑
i
=
1
n
(
x
i
?
μ
)
2
σ:标准差--σ=\sqrt {\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-μ)^{2}}
σ:标准差??σ=n?11?i=1∑n?(xi??μ)2
? 经过处理后的数据符合标准正态分布,即均值为0,标准差为1
3.非线性归一化
l
o
g
函
数
转
换
????
x
i
′
=
l
g
(
x
i
)
m
a
x
(
x
j
)
(
0
≤
x
≤
n
)
log函数转换 \ \ \ \ x'_{i}=\frac{lg(x_{i})}{max(x_{j})(0\le{x}\le{n)}}
log函数转换????xi′?=max(xj?)(0≤x≤n)lg(xi?)?
a
r
c
t
a
n
函
数
变
换
????
x
i
′
=
a
r
c
t
a
n
(
x
i
)
?
π
2
arctan函数变换\ \ \ \ x_{i}'=arctan(x_{i})*\frac{\pi}{2}
arctan函数变换????xi′?=arctan(xi?)?2π?
s
i
g
m
o
i
d
函
数
????
S
(
x
)
=
1
1
+
e
?
x
sigmoid函数\ \ \ \ S(x)=\frac{1}{1+e^{-x}}
sigmoid函数????S(x)=1+e?x1?
深度学习中的一些归一化可参考:http://t.csdn.cn/Z0lEZ
|