IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Improved Prototypical Networks for Few-Shot Learning -> 正文阅读

[人工智能]Improved Prototypical Networks for Few-Shot Learning

1. Introduction

FSL任务通常包含三个集,a base set, a support set, 和 a novel set。FSL 的任务是从新集合中正确分类实例,其标签空间与支持集的标签空间相同,但与基集的标签空间不相交。 目前,FSL 仍然是一项具有挑战性的任务,因为很难从少数样本中揭示类别的分布信息
Fig. 1.Fig. 1. 小样本任务的图解。 左列显示基集,每个类都有丰富的样本。 右列显示支持集和新集,其中标签空间与基集的标签空间不相交。 支持图像左侧的绿色条形反映了它们的类别代表性,条形越长,图像对类的重要性越高。

很明显,我们可以直接使用无参数方法,例如 kNN, 通过使用特定的距离度量(a certain distance metric)来测量目标数据和支持数据之间的相似性来实现 FSL。 然而,由于支持集图像不足,这种方法的分类性能通常不能令人满意。其他简单的方法使用支持集来微调在基集上训练的模型。 然而,这些方法很容易出现过拟合问题(Finn et al., 2017),因为提供的微调实例很少。 为了解决这个问题,元学习框架下的一些方法近年来引起了很多关注,它们将训练过程制定成连续的过程,每个过程模仿 FSL 的任务。 具体来说,该框架包含两个组件,元学习器学习特定类的元知识,学习器学习整个类的知识。

虽然基于元学习的方法取得了令人鼓舞的表现(Vinyals 等人,2016 年;Snell 等人,2017 年;Finn 等人,2017 年;Sung 等人,2018 年),但其中一些仍然具有以下弱点。 首先,当前的大多数方法要么需要复杂的前向推理(Feifei 等,2006),要么需要复杂的网络(Santoro 等,2016;Vinyals 等,2016)。 其次,现有方法很少关注类内差异,无法充分利用所提供的信息。 例如,由 (Snell et al., 2017) 提出的原型网络 (PN) 以简单的架构实现了惊人的性能。 然而,这项工作只利用了类内实例的平均信息,而忽略了一些有价值的信息。

为了缓解上述缺点,我们提出了一个修改PN,以最大限度地利用类内信息。基于这两种策略,提出的IPN包括三个模块:特征提取模块、权重分配模块和距离缩放模块。最后两个模块都是 parameter-light,这是低成本的实现。

2. Related Work

2.1. Parameters updating based methods

这些方法旨在预测更新参数,因为有更多的类可用示例。 例如,(Ravi and Larochelle, 2017) 开发了一个基于 LSTM 的元学习模型,该模型在基集上训练,通过充分的实例预测学到的分类器的参数,通过预测目标类的分类器参数,可以很容易地对目标类进行泛化。 基于现实世界中的类遵循长尾分布这一事实,Wang 等人 (Wang et al., 2017) 提出了一个改进的残差模型来将知识从头类转移到尾类。

2.2. Metric Learning based methods

直觉上,人类通过与以前见过的样本进行比较,在一定程度上识别出一个新物体。【实体关系分类就是不一样的思路了】受此过程的启发,出现了大量度量学习方法,通过学习度量函数来有效衡量两个实例之间的相似性来解决 FSL,这引起了很多关注。例如,科赫等人。 (Koch et al., 2015) 引入了 Siamese Network (Bromley et al., 1994) 通过识别输入实例对是否属于同一类来学习基集上的基本度量(a basic metric)。 在基集上训练的模型可用于识别新样本而无需重新训练。 取代使用成对比较,Vinyals 等人(Vinyals et al., 2016) 提出了一个基于 LSTM 的网络,结合了度量学习和外部记忆来构建一个具有整个支持集的基于注意力的小样本模型。 在他们的工作中,提出了一种 episode-based 的方法来训练模型。 注意力权重用于对支持样本的标签进行加权求和。 相比之下,我们模型的权重根据它们的代表性分配给属于同一类的支持样本。

基于episode训练机制,(Snell 等人,2017 年)试图找到适合 FSL 的简单度量函数。 具体而言,将同一类特征向量的均值视为类原型,用于衡量新实例与支持集类之间的相似度。 (Sung 等人,2018)取代使用特征向量和固定的度量函数,而是使用特征图来测量相似度,这些特征图通过关系网络 (RN) 中的可学习度量函数保留图像的更多空间信息。

3. Method

3.1. Problem Definition

在FSL中,提供了一个基集、一个支持集和一个新集,其中基集中的类别与支持集中的类别是不相交的【啊哈?支持集不是在基集取?】。

解决FSL的一种流行策略是,以元学习的方式模仿测试过程,在基础集上学习模型,这样就能很好地概括目标类。

3.3. Weighted Prototypical Networks

显然,PN 平等对待来自同一类的样本,而不考虑它们对最终决策的贡献。 然而,不同的实例在它们的类代表性上有很大差异。 为此,我们提出了一种注意力类似策略,通过根据实例的重要性将不同的权重分配给实例以揭示类分布,从而获得加权的类原型。 具体来说,我们将具有注意力类似策略的 PN 称为加权原型网络 (WPN)。

3.4. Distance Scaling Prototypical Networks

从方程(8),显然第一项A与xi的所属类别有关,第二项B与所有类别有关。 以类似的方式依此类推,对于 C-way 任务,第一项与 xi 的所属类别相关,第二项与所有类别相关。 不同的缩放系数迫使模型沿不同方向优化,最小化类内差异或最大化类间差异。理想的条件是模型在这两个方面得到平衡。 为了实现上述过程,我们提出了一种距离缩放策略来指导模型的优化。

距离缩放原型网络 (DPN) 是该策略的实现。 具体来说,DPN中包含的距离缩放模块也是一个三层网络。 如图 2 所示,查询图像的特征连接在支持图像的特征后面,形成向量作为距离缩放模块 hψ 的输入:
在这里插入图片描述

4. Experiments

对于所有实验,我们选择 Adam(Kingma 和 Ba,2015)作为优化器来训练整个网络并将学习率设置为 10?3。 所有模型都是从头开始端到端训练的。 常用的数据预处理策略包括随机裁剪、左右翻转和颜色抖动,用于扩充数据集。 使用验证集选择最终保留的模型。 根据先前的研究(Vinyals 等人,2016 年;Snell 等人,2017 年;Sung 等人,2018 年),我们在 miniImagenet 和 CUB 上的 5-way 1-shot 和 5-shot 任务上训练和测试我们的方法。 我们只报告根据(陈等人,2019 年)跨域的5-shot结果。

在训练阶段,除了 K 个样本示例之外,从每个类中选择 16 个查询图像形成一个 episode。 对于 1-shot 学习,K 为 1,对于 5-shot 学习,K 为 5。

4.5. Future analysis
在本节中,我们首先研究提出的模块对样本分布 (sample distribution)的影响,然后设计实验来探讨模块如何处理【如何处理呢?】类内差异(intra-class difference),最后讨论了提出的模块的一些计算成本和缺点。

仔细观察可以发现,IPN的特征显示了WPN和DPN的一些特征,我们猜测在统计特征上,它得到了WPN和DPN的平衡。

其次,从CUB中选取4类20幅图像,比较其与对应原型的距离,探讨PN和方法的类内差异。如图 5 所示,所提出模块的特征更接近于它们的原型,即减少了类内差异。 我们还观察到,对于大多数样本,IPN 的距离小于 WPN 和 DPN 的距离,并且对于一些样本,IPN 的距离在 WPN 和 DPN 之间,这表明 IPN 获得了 WPN 和 DPN 的平衡。

至于计算成本,所提出的模型在 PN 上增加了两个模块,因此需要更多的训练时间。 表 5 显示了不同模型针对 PN 的额外测试时间成本。 我们观察到 IPN 仅需要 13.3 μs 的额外计算时间来识别样本,这是可以接受的,因为相对于 PN 有明显的性能改进。

所提出模型的弱点是 WPN 仅在 K-shot (K>1) 任务下有效,但在 1-shot 任务下失败, 这不如 PN 灵活。 因此,设计灵活的 WPN 结构将是未来的工作之一。

5. Conclusion

在本文中,我们从两个方面提出了一种称为改进的 FSL 原型网络模型。 首先,提出了一种权重分配策略,将不同的权重分配给不同的实例,旨在探索类内信息。 其次,开发了一种距离缩放策略来指导模型最小化类内差异,同时最大化类间差异。 在两个基准数据集上的实验结果显示了它相对于最先进方法的有效性和竞争力。 消融实验显示了每个模块的有效性。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-12-07 12:01:51  更:2021-12-07 12:02:38 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 0:18:14-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码