IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 精读FREE: Feature Refinement for Generalized Zero-Shot Learning -> 正文阅读

[人工智能]精读FREE: Feature Refinement for Generalized Zero-Shot Learning

摘要?

? ? ? ? 作者提出,目前的零样本学习(Generalized zero-shot learning, GZSL)方法,在特征提取问题上都是使用的在ImageNet数据集上预训练的各种模型,但由于没处理ImageNet和GZSL跨数据集之间的偏差(cross-dataset bias),导致模型在应对zero-shot任务和处理未见过的类时提取的特征不佳。作者提出了特征改良模块(feature refinement, FR),来改善一个本质为生成器的映射所提取出的特征。此外,本文还提出了一个全新的损失,名为自适应边缘中心损失(self-adaptive margin center loss,?SAMC-loss)

? ? ? ? 摘要这块说得有些模糊,个人理解就是让GAN,把两个不同分布的数据的特征映射到同一片空间的同时具有较好的区分度,但直接使用GAN最多只能让两种分布的数据尽可能相似,但达不到不同类之间特征距离够大的目的,因此又提出了FR模块。

方法

架构

? ? ? ? (a)展示了训练流程。在阶段一CNN部分就是ImageNet上预训练的特征提取模型,在提取出特征x后,将x输入到VAEGAN中,f-VAE由编码器VAE和既是解码器也是生成器的G组成,而f-WGAN则是由G和D组成,f-VAE和f-WGAN中的G是同一个。

????????f-VAE会学习将语义映射到视觉(原文为f-VAEGAN aims to learn the semantic→visual mapping)得到生成特征。生成特征\hat x会和最初的特征x一起输入到判别器和FR。判别器通过WGAN损失让生成器生成的特征质量更高,而FR则会学习初始特征和合成特征之间的区别,更好地提取特征中的信息。

????????在阶段二中,将FR中不同层的特征,按照既定的规则进行拼接(concate),形成最终改良特征,并将最终改良的特征用于分类任务。

? ? ? ? (b)则显示了FR的内部细节。FR学习有区别性的特征(discriminative features),而FR中不同层的特征在拼接后便得到了完全改良特征。

FR

? ? ? ? 由于VAEGAN完全是已有方法,所以在此不做赘述,直接开始FR。在开始之前要提一嘴,带s下标的,均为训练时模型见过的类(seen classes),而u则为没见过的类(unseen classes)。任何一幅图,不论属于哪一类,都自带一个embedding,记为a,这是原文在第三节中,3.1节开始之前的最后一段说的原文,至于哪来的我也不知道,可能是用已有的embedding提取模型得到的。

SAMC-loss

? ? ? ? SAMC-loss公式为

? ? ? ?L_{SAMC}(\hat a, y, y')=max(0, \Delta +\gamma \left \| \mu -y_{c} \right \|_{2}^{2}) -(1-\gamma)\left \| \mu -y_{c'} \right \|_{2}^{2})

? ? ? ? 这里的μ,一定是训练时见过的类在FR中提取出来的中间特征。y是图像所属类,yc则是该类语义嵌入的中心(semantic embedding),y'则是随机采样的另一个类,同理yc'是该类的语义嵌入的中心。通过调整γ,就能控制FR是更关注类内一致性还是类间差异。

Semantic Cycle-Consistency Loss

? ? ? ? 这玩意名字高大上,但其实就是FR最后一层会试着重建输入特征所对应的embedding。

????????L_{R\_a}=E\left \| \hat a_{real} -a\right \|+E\left \|\hat a_{syn} -a \right \|

? ? ? ? 公式看起来也挺高大上,但说人话就是把重建后的embedding与原embedding按位做差再取绝对值最后求和。

fully refined features

? ? ? ? 最后,根据输入图像所属的类是否见过,通过不同的方式得到最终改良的特征。

????????\tilde{x}_{s}=x \oplus h_{s} \oplus \hat a_{s}

? ? ? ? 对于见过的类,直接用预训练的backbone提取的特征即可。

????????\tilde{x}_{u}=\hat x_{u} \oplus h_{u} \oplus \hat a_{u}

????????对于没见过的类,则要使用VAEGAN映射后的特征,这样才能保证未见过的类所用的特征与见过的类的特征没有明显的跨数据集偏移。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-12-15 18:17:53  更:2021-12-15 18:20:01 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 21:05:23-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码