深度学习中的Normalization
Normalization vs Standardization(归一化和标准化的区别)
为了公平比较,或者更好地对数据进行后续处理,常将数据规范到一定范围之内,如将数据映射到[0, 1]之间,这个过程叫做Normalization(归一化)。为应对不同的需求,会设计不同的函数规范这些数据。如果均值
μ
\mu
μ和标准差
σ
\sigma
σ已知,最常采用的Normalization为Standardization(标准化),又被称为z-score或Standard score,如式(1)所示。
z
=
x
?
μ
σ
(1)
z=\frac{x-\mu}{\sigma} \tag{1}
z=σx?μ?(1)
其中,
x
x
x表示原始数据,
z
z
z为处理后的数据。
除此之外,min-max feature scaling也是一种常用的Normalization,如式(2)所示
z
=
x
?
x
m
i
n
x
m
a
x
?
x
m
i
n
(2)
z=\frac{x-x_{min}}{x_{max}-x_{min}} \tag{2}
z=xmax??xmin?x?xmin??(2)
其中,
x
m
i
n
x_{min}
xmin?和
x
m
a
x
x_{max}
xmax?分别表示原始数据中的最大值和最小值,这样处理过后的数据处在[0, 1]之间。
PyTorch中数据增强使用的Normalize及其参数
式(1)就是PyTorch中torchvision.transforms.Normalize 对每一通道分别进行的操作。需要注意的是,这个操作只改变数据的量级,不会改变数据的分布,即如果数据集本身是正态分布,Standardization后仍然是正态分布。
Normalize常在torchvision.transforms.ToTensor 之后使用,ToTensor 一般情况会将[0, 255]的数据规范到[0.0, 1.0]之间 ,这种情况下,如果参数选择为mean=std=0.5,那么带入式(1)可以看出,Normalize之后数据范围在[-1, 1]。
虽然使用参数mean=std=0.5比较简单稳妥,然而,更合理的方法是使用采样计算得到的mean和std,根据均值和标准差的意义,此时处理后的数据均值为0,标准差为1。
神经网络中有BN层,是否还需要使用torchvision.transforms.Normalize
torchvision.transforms.Normalize 使用的Normalization又被称为Instance Normalization,即对于一个样本实例, 针对不同通道的数据Normalize。
BN(Batch Normalization, 批归一化)是在批量样本的Standardization,常在神经网络的线性层与激活层之间使用。它可以保证这一层的输出数据满足均值为0,标准差为1的状态,用于防止过拟合,梯度爆炸以及梯度消失。
除此之外,神经网络中常用的还有LN(Layer Normalization, 层归一化),它是为了解决BN无法应用于RNN中的问题被提出的。实验结果表示,大多情况下,RNN、Transformer系列模型架构使用LN效果好,而CNN常使用BN层。
图像问题一般使用了BN层可以不用在预处理阶段使用Instance Normalization了,但总体来说还是建议先使用Instance Normalization。
|