IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation论文解读 -> 正文阅读

[人工智能]Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation论文解读

前言

许久没写博客,今天趁着假期最后一天,分享下今天看到的一篇关于自蒸馏的论文。

题目:Student Helping Teacher: Teacher Evolution via Self-Knowledge Distillation
地址:https://arxiv.org/abs/2110.00329
github:https://github.com/zhengli427/TESKD/

主要思路

之前的蒸馏方法基本都是teacher监督student或者多个student之间互相监督,BYOT论文中,作者将student拆分为多个block,每个block都单独接一个fc,计算celoss,相当于希望每个block都可以学到更加鲁棒的feature(当然,浅层的feature最终的分类效果肯定是相对比较差的)。

TESKD,也就是这篇博客的主角中,作者借鉴了BYOT以及FPN的结构,使得模型训练以一种自蒸馏的方式呈现出现,不同层级之间的feature也会进行融合并互相监督,融合之后的feature也会接avgpool以及fc,最终也是具有分类能力的,融合的这个过程进一步提升了feature的鲁棒性,也带来了更为优秀的分类结果

结构框图

下面是TESKD自蒸馏算法的结构框图,这其中其实只有一个网络,也就是我们最终用于部署的网络,但是这里为了区分,还是将其称之为教师网络,T1~T4是区分出来的4个block,这对于ResNet等比较标准的网络来说都是比较好实现的(不同的Res stage印出来即可)。对于拿到的feature,使用下面右边的方法进行融合。具体地, T b ? 1 T_{b-1} Tb?1?接上1x1卷积进行维度映射,S_b接上2x2的上采样以及1x1卷积(实际上是conv+bn+relu,下同)进行通道维度映射(都变成512维),然后再进行add与concat的操作,最后再接1x1卷积进行fuse,得到 S b ? 1 S_{b-1} Sb?1?,感觉是右边的图,左边出来的写错了。整个操作流程类似于FPN。

弄完之后,S1~S3再接上avgpool(出来的feature用于计算feature loss)以及fc(出来的logits用于计算celoss以及kd loss)。整体结构比较清晰。

在这里插入图片描述

最终loss也是包含这几个部分:CELoss、KDLoss、FeatureLoss。

整个过程中,其实只有teacher model是我们用于infer的model,其他的S1~S3其实只是用于打辅助的,而且也没有使用任何的pretrain,因此可以归为self-distillation的范畴,思路确实比较有意思。

实验

相比于其他的方法,TESKD在cifar100上的优势要更加明显一些,比之前的蒸馏方法都要好
在这里插入图片描述

下面也给出了与BYOT的比较,毕竟二者也有很多相似的地方。一方面是因为更多的监督和级联信息,最终S1~S3以及最终的output精度都超过了BYOT;另一方面,由于特征融合,所以TESKD的浅层特征也包含了深层特征,所以精度优势相比于BYOT要更为明显。
在这里插入图片描述

好的蒸馏算法需要经得起ImageNet的考验,作者的实验也证实了这一点,不过提升相比于Cifar100数据集要小很多。其实蒸馏可以理解为正则化的一种思路,这个结论也是正常的,大数据集上,模型能力就相对有限了。

在这里插入图片描述

作者也设计了一些消融实验,看下具体是哪个部分影响最大,最终发现,蒸馏loss对于整体效果的提升还是最明显的,其他的在MFM模块中的设计也会带来一定的精度提升,但是不起主导作用。
在这里插入图片描述

结论

一种新的自蒸馏思路,包括之前的reviewKD等方法,其实或多或少都开始走feature merge + distillation的路子了,感觉可以从feature连接的角度,去进一步挖掘这种方法的潜力;当然,为了便利,真的要摆脱一个精度更高的教师网络吗?如果从最终的精度出发,其实还是有待商榷的,也欢迎大家讨论。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-08 11:48:21  更:2021-10-08 11:50:04 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 10:41:52-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码