[人工智能] A Gift from Knowledge Distillation：relation蒸馏

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> A Gift from Knowledge Distillation：relation蒸馏 -> 正文阅读

[人工智能]A Gift from Knowledge Distillation：relation蒸馏

使用relation的蒸馏代替传统的feature map或者logits蒸馏

如何建模relation?

就是feature map的内积
比如两个residual block，输出的feature map大小相等，但channel数可能不同，比如F1：(h,w,m)，F2：(h,w,n)，输出relation：(m,n)，其实就是F1的m个channel和F2的n个channel之间的关系。

F1的m个channel分别和F2的n个channel相乘，每次会得到一个值，最后就得到了(m,n)的矩阵

如何比较T和S的relation

首先T和S得有相同数量的relation，也就是说，如果T分为了10个block，也就是说会有9个relation map，那么S也得分为10个block，得到9个relation map，不过如果T和S的relation map不一样大怎么办？比如T是(m,n)，S是(m1,n1)怎么办？=>本文不考虑这种情况
在这里插入图片描述
比如上图，一个是32个residual layers的resnet，一个是14层的，上面每5个layer划一个大block，下面每2个layer划一个大block，最终得到的relation map数量是一样多的，因此可以一一对应
由于residual modules不会改变feature map大小(因为CNN加了padding)，pooling是单独做的，因此上面划大block其实都是在pooling处加的，这样T和S的relation map的大小也能对上。
这样一对一计算L2 loss，然后求个平均，就得到了一阶段的Loss。