IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> HSAKD:分层自监督增广知识蒸馏 -> 正文阅读

[人工智能]HSAKD:分层自监督增广知识蒸馏

背景:尽管最近的自监督对比知识实现了最佳性能,但强迫网络学习这些知识可能会损害原始类识别任务的表示学习

方法简介:1、采用另一种自监督增强任务来引导网络学习原始识别任务和自监督辅助任务的联合分布。它被证明是一种更丰富的知识,可以在不损失正常分类能力的情况下提高表示能力。

? ? ? ? ? ?2、以前的方法仅在最终层之间传递概率知识是不完整的。该方法将几个辅助分类器附加到分层的中间特征映射中,以生成不同的自监督知识,并执行一对一传递,以彻底地教授学生网络。

SSKD和HSAKD之间的自监督知识的差异:

(a) SSKD通过强制图像及其变换版本在特征嵌入空间中与其他负面图像闭合来应用对比学习。它将对比关系定义为知识

(b) HSAKD将原始任务和自监督辅助任务统一为联合任务,并将自监督增广分布定义为知识。?

?1、模型方法

1.1自监督增广分布

使用CNN的常规分类网络,给出了原始类概率分布和自监督增广分布之间的差异

a、CNN可以分解为特征提取器z=\phi \left ( \cdot ;\mu \right )线性分类器g\left ( \cdot ;\omega \right ),其中μ和\omega权重张量

b、给定输入样本x \in XX是训练集,z=\phi \left ( X ;\mu \right )\in R^{d}是提取的特征嵌入向量,其中d是嵌入大小。

c、考虑一个卷积N类对象分类任务,其中标签空间N={1,···,N}。

d、带有softmax归一化的线性分类器将特征嵌入z映射到预测类概率分布p\left ( x;\tau \right )=\sigma \left ( g\left ( z;\omega \right ) /\tau \right )\in R^{N},其中σ是softmax函数权重矩阵\omega \in R^{N\times d}\tau是衡量分布平滑度的温度超参数

创新:引入了一个额外的自监督任务来扩展传统的监督对象类空间。学习这种联合分布可以迫使网络生成更多信息和有意义的预测,同时受益于原始和辅助自监督任务。

假设我们用标签空间M=\left \{ 1,...,M \right \}定义M个不同的图像变换\left \{ t_{j} \right \}_{j=1}^{M},其中t_{1}表示同一变换,即t_{1}\left ( x \right )=x

为了有效学习复合知识,将类空间从原来的监督对象识别任务和自监督任务变成了一个统一的任务。此任务的标签空间为K=N? M、 这里? 是笛卡尔积|K |=N? M,?其中|·|是标签集合的基数,*表示元素相乘。

a、给定一个变换样本\widetilde{x}\in \left \{ t_{j}\left ( x \right ) \right \}_{j=1}^{M},通过在x上应用一个变换,\widetilde{z}=\phi \left ( \widetilde{x} ;\mu \right )\in R^{d}是提取的特征嵌入向量。

b、q\left ( \widetilde{x};\tau \right )=\sigma \left ( g\left ( \widetilde{z} ;\omega \right ) /\tau \right )\in R^{N\times M}?是联合标签空间K上的预测分布,其中权重张量\omega \in R^{\left ( N\times M \right )\times d}。使用p\in R^{N}表示正态类概率分布q\in R^{N\times M}表示自监督增广分布

1.2辅助架构设计

? ? ? 具有各种分辨率的特征图编码各种模式的代表性信息。高分辨率特征映射通常呈现更细粒度的对象细节,而低分辨率特征映射则通常包含更丰富的全局语义信息。为了充分利用封装在单个网络中的分层特征映射,将多个中间辅助分类器添加到隐藏层中,以学习和提取分层自监督增强知识。

将传统分类网络表示为f(·),它映射输入样本t_{j}\left ( x \right ),j∈ M的普通类概率分布p\left ( t_{j} \left ( x \right );\tau \right )=\sigma \left ( f\left ( t_{j}\left ( x \right ) \right ) /\tau \right )\in R^{N}。CNN通常利用阶段卷积块来随着网络深度的增加逐渐提取更粗糙的特征。

例子:用于ImageNet分类的流行ResNet-50包含连续的四个阶段,从不同阶段生成的提取特征图具有不同的粒度和模式。假设网络包含L个阶段,选择在每个阶段后附加一个辅助分类器,从而得到L个分类器\left \{ c_{l} \left ( \cdot \right )\right \}_{l=1}^{L},其中c_{l}\left ( \cdot \right )是第l阶段后的辅助分类器。c_{l}\left ( \cdot \right )逐级卷积块、全局平均池层和完全连接层组成。特征提取第l阶段后的特征图作为F_{l},可以获得由c_{l}\left ( \cdot \right )推断的自监督增广分布作为q_{l}\left ( t_{j} \left ( x \right );\tau \right )=\sigma \left (c _{l}\left ( F_{l} \right ) /\tau \right )\in R^{N*M}。下图显示出了三级网络上辅助分类器的总体设计。

?

2、网络训练?

2.1教师网络训练

将教师骨干网络表示为f^{T}\left ( \cdot \right ),将L个辅助分类器表示为\left \{ c_{l}^{T}\left ( \cdot \right )\right \}_{l=1}^{L}。为准备教师网络进行端到端训练过程。

一方面:通过常规的交叉熵(CE)损失来训练正常数据x的f^{T}\left ( \cdot \right ),以拟合真实标签y\in N?和p^{T}\left ( x;\tau \right )=\sigma \left ( f^{T}\left ( x \right )/\tau \right )\in R^{N}预测类概率分布

另一方面:训练L个辅助分类器\left \{ c_{l}^{T}\left ( \cdot \right )\right \}_{l=1}^{L},用于学习分层自监督增广分布。给定一个输入样本t_{j}\left ( x \right ),分别将从主干f^{T}\left ( \cdot \right )生成的特征映射\left \{ F_{l,j}^{T} \right \}_{l=1}^{L}馈送到\left \{ c_{l}^{T}\left ( \cdot \right )\right \}_{l=1}^{L}。由第l个分类器c_{l}^{T}推断的预测自监督增强分布是q_{l}^{T}\left ( t_{j} \left ( x \right );\tau \right )=\sigma \left (c _{l}^{T}\left ( F_{l,j} ^{T}\right ) /\tau \right )\in R^{N*M}

使用CE损失训练所有辅助分类器,其中\left \{ t_{j}\left ( x \right ) \right \}_{j=1}^{M}上的自监督增强标签如下所示:

L_{ce-SAD}^{T}=\frac{1}{M}\sum_{j=1}^{M}\sum_{l=1}^{L}L_{ce}\left ( q_{l}^{T} \left ( t_{j}\left ( x \right ) ;\tau \right ),k_{j}\right )

其中\tau =1L_{ce}表示交叉熵损失。使用k_{j}表示联合类空间K中t_{j}\left ( x \right )的自监督增强标签。训练教师的总体损失如下所示:

L_{T}=E_{x\in X}\left [ L_{ce} \left (p ^{T} \left ( x;\tau \right ),y\right )+L_{ce-SAD}^{T}\right ]

第一种损失:简单地拟合正常数据,以学习一般分类能力。

第二个损失:通过从主干网络派生的现有层次特征生成额外的自我监督增强知识。

这种方法有助于从自监督任务中提取比传统的完全监督任务更丰富的知识

2.2学生网络训练

将学生骨干网络表示为f^{S}\left ( \cdot \right ),将L个辅助分类器表示为\left \{ c_{l}^{S}\left ( \cdot \right )\right \}_{l=1}^{L}。在教师网络的监督下进行端到端训练过程。

总体损失包括来自预定义的真实标签的任务损失和来自预训练的教师网络的模仿损失

2.2.1任务损失

强制f^{S}\left ( \cdot \right )拟合正常数据x作为任务损失:

L_{task}=L_{ce}\left ( p^{S}\left ( x;\tau \right ),y \right )

p^{S}\left ( x;\tau \right )=\sigma \left ( f^{S}\left ( x \right )/\tau \right )\in R^{N}预测类概率分布。还尝试强制L个辅助分类器\left \{ c_{l}^{S}\left ( \cdot \right )\right \}_{l=1}^{L}学习自监督增广分布。

L_{ce-SAD}^{S}原始任务和自我监督任务的联合硬标签分配作为额外损失:

L_{ce-SAD}^{S}=\frac{1}{M}\sum_{j=1}^{M}\sum_{l=1}^{L}L_{ce}\left ( q_{l}^{S} \left ( t_{j}\left ( x \right ) ;\tau \right ),k_{j}\right )

q_{l}^{S}\left ( t_{j} \left ( x \right );\tau \right )=\sigma \left (c _{l}^{S}\left ( F_{l,j} ^{S}\right ) /\tau \right )\in R^{N*M}?和F_{i,j}^{S}是从F^{S}\left ( \cdot \right )的第l阶段为输入t_{j}\left ( x \right )提取的特征图。

2.2.2模仿损失

一方面:将从教师网络的L个辅助分类器生成的分层自监督增强分布分别转移到学生网络的相应L个辅助分类。传输通过KL散度损失D_{KL}以一对一的方式进行:

L_{KL-q}=\frac{1}{M}\sum_{j=1}^{M}\sum_{l=1}^{L}\tau ^{2}D_{KL}\left ( q_{l}^{T}\left ( t_{j} \left ( x \right );\tau \right ) ||q_{l}^{S}\left (t _{j}\left ( x \right );\tau \right )\right )

可以预期学生网络通过统一的自监督知识和原始班级全监督知识获得全面指导。信息性知识来自封装在高容量教师网络的隐藏层中的多尺度中间特征图

另一方面:在教师和学生之间传递从最后一层生成的原始类概率分布。具体地说,我们传递从正常数据和变换数据\left \{ t_{j}\left ( x \right ) \right \}_{j=1}^{M}得出的知识,其中t_{1}\left ( x \right )=x。该损失公式:

L_{KL-p}=\frac{1}{M}\sum_{j=1}^{M}\tau ^{2}D_{KL}\left ( p^{T}\left ( t_{j} \left ( x \right );\tau \right ) ||p^{S}\left (t _{j} \left ( x \right );\tau \right )\right )

没有明确强制学生主干f^{S}\left ( \cdot \right )在任务丢失时拟合转换数据,以保持正常分类能力。但模仿从教师网络的这些转换数据中推断出的预测类概率分布的副产品也有利于学生网络的自我监督表征学习。

2.2.3总体损失

我们将任务损失和模仿损失总结为训练学生网络的总体损失L_{S}

L_{S}=E_{x\in X}\left [L _{task}+L_{KL-q} +L_{KL-p}\right ]

3、总结?

1、提出了一种用于KD的自监督增强任务,并利用设计良好的辅助分类器进一步传递从分层特征图中获得的丰富知识。

2、在KD领域的标准图像分类基准上实现了SOTA性能。它可以指导网络学习语义识别任务的一般特征表示。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-21 00:29:07  更:2022-09-21 00:29:18 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 18:41:14-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计