论文地址：

https://arxiv.org/abs/2107.00181

主要问题：

作者认为直接推动学生模型模拟教师模型的概率/特征，在很大程度上限制了学生模型学习未被发现的知识/特征

如图所示，使用KD训练的学生模型与训练良好的教师相比学习到非常相似的模式（更多的结果将在补充材料中显示）

在这种情况下，“猎豹”被教师模型错误地归类为“鳄鱼”，也被KD训练的学生模型错误地归类

该模型将其大部分预测归因于“猎豹”的尾巴，而“猎豹”类似于一条“鳄鱼”，而学生网络没有在耳朵和嘴上加入新的相关模式来区分“猎豹”和“鳄鱼”

因此我们需要一种机制来找到被教师网络忽略更有用的特征

在这里插入图片描述
直观上，简单地模拟教师网络的输出会缩小学生网络最优参数的搜索空间，从特征学习的角度来看会导致较差的解（如图所示）：

主要思路：

作者提出了一种新的继承和探索知识蒸馏框架（IE-KD），其中将学生模型分为继承和探索两部分。该算法用相似性损失学习遗传部分，将现有的学习知识从教师模型转移到学生模型，同时鼓励探索部分学习不同于有相似性损失的遗传知识的表征。

在的IE-KD中，知识是由一致性和多样性这两个原则来传递的。一致性确保了学生网络成功地在教师网络中继承，多样性确保了学生网络可以探索与继承特征互补的新特征。

受遗传和进化模型的启发，作者将算法分成两个部分：一个通过一致性/遗传损失（相似性）继承教师网络由因素（factors）编码的紧凑有效的知识，另一个通过多样性/探索损失（不相似性）来生成不同的特征。监督任务（分类/检测）损失起自然选择的作用，引导探索部分则负责使得模型收敛到不同而有效的特征。

同时受Q-learning的启发，作者鼓励模型通过探索新的和未被发现的知识，来改善学生网络的训练。

在这里插入图片描述

具体实现：

如上图所示，其中一部分（由橙色表示）使用继承损失来模拟教师网络的紧凑特征，而另一部分（蓝色）被鼓励通过探索损失来学习不同于教师网络的新特征，监督任务的损失（分类/检测）负责指导探索部分收敛到不同但有效的特征

总的来说，学生网络接受了继承损失、探索损失以及传统的监督目标损失的训练

Compact Knowledge Extraction：

我们将教师的特征表示为 $f_T$ ，继承部分和学生网络的探索部分的特征分别表示为 $f_{inh}$ 和 $F_{exp}$

衡量这些特征之间的相似性的问题在于它们通常有不同的形状和大小，为了解决这个问题，作者通过编码器将它们编码到相同维的共享潜在特征空间中，编码的特征分别由 $F_T、F_{inh}$ 和 $F_{exp}$ 表示。作者使用了论文 Paraphrasing complex network: Network compression via factor transfer 中的factor-based子的编码模块，用于从教师网络的特定卷积块中提取知识

具体来说就是采用了一种由几个卷积层和反卷积层组成的自动编码器，从教师网络中提取可转移因子 $F_T$ 。作者使用了三个卷积层和三个反卷积，所有的六层卷积和反卷积的卷积核大小为 $3 \times 3$ ，步长为 $1$ ，填充为 $1$ ，并加上 Batch-Normalization 和 Leaky-ReLU（ $r a t e = 0.1$ ）

只有在第二次卷积时，输出特征映射的数量才被压缩为因子特征映射的数量。类似地，第二个转置卷积层会被调整大小，以匹配教师网络的特征图

自动编码器使用常见的重构损失进行训练：

$L_{rec}=||f_T-R(f_T)||^2$

其中 $f_T$ 是教师模型的特征图， $R(f_T)$ 是自解码器的输出

Inheritance and Exploration：

IE-KD的目标是利用教师网络的紧凑特性 $f_T$ 来增强学生网络的特征 $f_S$ ，然而直接推动学生模型模仿教师模型的特征会限制学生模型学习未发现的特征

因此作者没有将处理和训练 $f_S$ 作为一个整体，而是将其随机地分为两个部分： $f_{inh}$ 和 $f_{exp}$ ，并分别调节它们与两个对应的损失，一个继承损失 $L_{inh}$ 尽可能多地模拟 $f_T$ ，另一个探索损失 $L_{exp}$ 允许 $f_{exp}$ 学习不同的或不相关的特征