基于生成对抗网络的知识蒸馏数据增强

期刊：计算机工程 C

时间：2022

研究院：武汉工程大学

关键词：数据增强；神经网络分类器；工业视觉；生成对抗网络；知识蒸馏

方法简介

思想来源：

仅对原标签做简单的线性变化或直接使用原标签作为新样本标签的方法是无法表示标签中离散信息的，这会导致网络模型无法将离散信息也作为一种特征进行学习。

针对上述问题，在区域丢弃算法的基础上，提出一种基于生成对抗网络的知识蒸馏数据增强算法。使用补丁对丢弃区域进行填补，减少区域丢弃产生的非信息噪声。在补丁生成网络中，保留生成对抗网络的编码器-解码器结构，利用编码器卷积层提取特征，通过解码器对特征图上采样生成补丁。在样本标签生成过程中，采用知识蒸馏算法中的教师-学生训练模式，按照交叉检验方式训练教师模型，根据教师模型生成的软标签对学生模型的训练进行指导，提高学生模型对特征的学习能力

对区域丢弃算法中的丢弃运算进行改进，在生成对抗网络［23］的基础上，对其生成器和判别器结构进行优化，设计一种 补丁生网络 。补丁生成网络通过 学习原样本的像素分布生成填充补丁 ，以减少随机噪声。

同时，在区域丢弃算法中引入基于知识蒸馏的标签生成算法，通过教师网络获得 Soft-lable 并辅助学生网络进行训练［24］。 Soft-lable 比普通的 One-Hot 标签具有更高的信息熵，能有效辅助学生网络学习不同类别间的类间差距，减少错误标签对模型的影响，提高分类器的精度。

具体方法

区域丢弃算法

区域丢弃算法作为一种正则化方法被广泛应用于防止神经网络过拟合，通过在网络的前向传播过程中按照一定比例舍弃节点的激活值的方式增强网络分类器的训练效率。与全连接层相比，区域丢弃算法在卷积层中的效果较差，这是由于卷积层使用了卷积核，使得卷积层的参数量远少于全连接层，因此在解空间中对正则化的要求更少，并且在卷积层中特征图的相邻像素信息相似，舍弃掉的像素信息又存在于其他的像素中，继续向后传递。

提高区域丢弃策略在卷积层中的正则化效果，将卷积层中的丢弃操作设置到输入层。通过直接移除输入图像的连续区域迫使网络去学习全局信息，而不仅关注于局部区域。在许多视觉任务中常常存在目标物体被遮挡的情况，区域丢弃算法也可以看作是对遮挡的模拟，定义如下：

其中：x ∈ RW × H × C 表示原始样本，W 表示原始图像的宽度、H 为图像高度、C 为图像通道数；xˉ 表示生成的新样本，采用原始样本标签 y 作为新样本 xˉ 的标签 yˉ； M ∈{0,1}W × H 表示一个尺寸为 ssize×ssize 的矩形二值掩模。掩模 M 的中心位置是随机生成的，像素坐标（x，y）范围如式（2）所示

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Eq7ryHFG-1666801157820)(基于生成对抗网络的知识蒸馏数据增强.assets/image-20221026224832358.png)]

掩模左上角（x1，y1）、左下角（x1，y2）、右上角（x2， y 1）、右下角（x2，y2）这 4 个角点坐标与中心坐标的关系如式（3）所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FgnpDV0f-1666801157821)(基于生成对抗网络的知识蒸馏数据增强.assets/image-20221026224917872.png)]

问题

1）在使用二值掩模对原样本进行遮挡时，会引入二值噪声，需要对所有样本的所有像素值进行归一化操作，这会增加额外的计算量；

2）使用原样本的标签进行网络损失计算，这对于图像分类任务和语义分割任务都是不合适的，在图像分类任务中每张图像仅对应一个标签，原标签无法体现出不同类别之间的差异信息，在语义分割任务中每一个像素点都对应一个 One-Hot 标签，丢弃的像素点被二值填充，此时仍采用像素点的原始标签是不合理的

基于 GAN 的知识蒸馏数据增强算法

本文主要从非监督单样本数据增强方式和新标签生成方式 2个方面对区域丢弃算法进行改进

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uBbmZ3ss-1666801157822)(基于生成对抗网络的知识蒸馏数据增强.assets/image-20221026225755718.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VZgbeFGm-1666801157822)(基于生成对抗网络的知识蒸馏数据增强.assets/image-20221026225841390.png)]

改进的数据增强算法

补丁填充算法被使用在 CutMix 算法中，能减少丢弃像素导致的信息缺失、训练困难问题。受补丁填充算法的启发，构造一种补丁生成网络，并将其应用在区域丢弃算法中。

对于生成器 G 输入一张 512×512 大小的三通道图片，设置区域丢弃使用的掩模尺寸为 128×128，即生成器需要生成一个 128×128 大小的补丁。输入图片经过 4 次卷积池化下采样为 32×32 大小的 512 维特征，再经过 2 次上采样（UpSampling）恢复尺寸得到最终的三通道 128×128 的填充补丁

从图 2 可以看出，与常规 GAN 生成器相比，补丁生成网络将编码器中的全连接层替换为卷积层，在解码器中增加了上采样层以控制最终获得的补丁尺寸。同时，在激活函数选择上，改用系数为 0.2 的 LeakyReLu 激活函数替代 tanh 激活函数，以防止在训练过程中的梯度震荡问题。在生成器中的编码器 Encoder 设计为一个典型的卷积结构，共使用 4 层卷积层，这 4 个卷积层分别使用 32 个步长为 2 的 3×3 卷积核、64 个步长为 2 的 3×3 卷积核、128 个步长为 2 的 3×3 卷积核和 512 个步长为 2 的 1×1 卷积核。输入图像经过 4 次卷积层后，特征图的尺寸缩小为原图的 1/16。生成器中的解码器 Decoder 通过两次上采样恢复特征图尺寸。在上采样的具体实现中，直接采用反卷积（Deconv）层虽然更简单，但其存在棋盘效应，必须人为设计卷积核尺寸才能整除步长。为了减少网络设计的难度，通过 2次叠加使用上采样层和卷积层实现上采样操作。第 1 次使用上采样层与 128 个步长为 1 的 3×3 卷积层将 32×32×512 的特征图扩大为 64×64×128，第 2 次使用上采样层与 64 个步长为 1 的 3×3 卷积层将 64×64×128 的特征图继续扩大为 128×128×64，之后通过一个卷积层将特征图的尺寸调整为 128× 128×3。仅进行两次上采样操作的原因为：与常规 GAN 的解码器需要将特征图尺寸还原到原图大小不同，补丁生成网络仅需要将特征图尺寸还原到与补丁相同的大小（原图大小的 1/4）。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rC3bFv6X-1666801157822)(基于生成对抗网络的知识蒸馏数据增强.assets/image-20221026230459926.png)]

从图 3 可以看出，补丁生成网络判别器的设计参考常规 GAN 判别器的结构，但在卷积层后没有再使用最大池化层，而是将这些信息最后直接平化（Flatten）输入到全连接层中。在经过激活函数后，补丁生成网络判别器还加入了 BN 层加快收敛速度。判别器的输入为生成器生成的 128×128×3 尺寸的补丁，经过 3 个卷积层和 1 个平化层，最后输出 1 个一维概率值。3 个卷积层分别使用 64 个步长为 2 的 3×3 卷积核、128 个步长为 2 的 3×3 卷积核和 256 个步长为 1 的 3×3 卷积核。加入平化层是将 32×32×256 的特征一维化成 26 244 个一维向量，使卷积层与全连接（Dense）层进行过度。最终通过 sigmoid 激活函数输出一个表示该补丁是否为真的一维概率值。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qYT5RRjt-1666801157823)(基于生成对抗网络的知识蒸馏数据增强.assets/image-20221026230803575.png)]