| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 读论文:Learning to Compare: Relation Network for Few-Shot Learning -> 正文阅读 |
|
[人工智能]读论文:Learning to Compare: Relation Network for Few-Shot Learning |
Abstract
我们提出了一个概念上简单、灵活且通用的少镜头学习框架,其中分类器必须学习识别每个只给出少量示例的新类。我们的方法称为关系网络(RN),从头到尾进行训练。在元学习过程中,它学习学习一个深度距离度量来比较插曲中的少量图像,每个图像都被设计用来模拟少数镜头设置。经过训练后,RN能够通过计算查询图像与每个新类的少数示例之间的关系分数来对新类的图像进行分类,而无需进一步更新网络。除了在少镜头学习上提供更好的性能外,我们的框架很容易扩展到零镜头学习。在五个基准上进行的大量实验表明,我们的简单方法为这两项任务提供了统一而有效的方法。 Introduction具体来说,我们提出了一个双分支关系网络(RN),通过学习比较查询图像和少数镜头标记的样本图像来执行少数镜头识别。首先,嵌入模块生成查询和训练图像的表示。然后,这些嵌入由一个关系模块进行比较,该模块确定它们是否来自匹配的类别。定义一个受[39,36]启发的基于情节的策略,嵌入和关系模块是端到端的元学习,以支持少量学习。这可以看作是扩展了[39,36]的策略,包括一个可学习的非线性比较器,而不是一个固定的线性比较器。我们的方法优于先前的方法,同时更简单(没有rnn[39,32,29])和更快(没有微调[29,10])。我们提出的策略也直接推广到零次学习。在这种情况下,样本分支嵌入一个单镜头类别描述,而不是单个示例训练图像,关系模块学习比较查询图像和类别描述嵌入。 总的来说,我们的贡献是提供一个干净的框架,优雅地包含少量和零次学习。我们对四个基准的评估表明,它提供了令人信服的性能,同时比替代方案更简单、更快。 Related Work单镜头或少镜头物体识别的研究已经有一段时间了。早期关于少镜头学习的工作往往涉及具有复杂迭代推理策略的生成模型[9,23]。随着基于判别的深度学习方法在多镜头数据集环境中的成功[22,15,35],人们对将这种深度学习方法推广到少镜头学习环境中的兴趣激增。许多这种方法使用元学习或从学习到学习的策略,从一组辅助任务(元学习,从学习到学习)中提取一些可转移的知识,然后帮助他们很好地学习目标少次问题,而不会遭受在将深度模型应用于稀疏数据问题时可能预期的过拟合。 Learning to fine-tune? 成功的MAML方法[10]旨在元学习一个初始条件(神经网络权重集),这有利于对少数镜头问题进行微调。这里的策略是搜索给定神经网络的权重配置,这样它就可以在几个梯度下降更新步骤内有效地对稀疏数据问题进行微调。许多不同的目标问题从一个多任务训练集中采样;然后对基本神经网络模型进行微调,以解决每个问题,并且在微调后成功解决每个目标问题,从而驱动基本模型中的更新-从而驱动易于微调初始条件的产生。少镜头优化方法[29]在元学习方面更进一步,不仅是一个良好的初始条件,而且是一个基于lstm的优化器,它被训练为特别有效的微调。然而,这两种方法都需要对目标问题进行微调。相比之下,我们的方法以完全前馈的方式解决目标问题,不需要更新模型,使其更方便于低延迟或低功耗应用。 RNN Memory Based 另一类方法利用带有记忆的循环神经网络[27,32]。 这里的思想通常是RNN迭代给定问题的示例,并在其隐藏的激活(或外部内存)中积累解决该问题所需的知识。新的例子可以被分类,例如通过将它们与存储在内存中的历史信息进行比较。所以“学习”单个目标问题可以发生在RNN展开的过程中,而“学习到学习”是指通过学习许多不同的问题来训练RNN的权重。尽管很吸引人,但这些架构在确保可靠地存储所有(可能是长期的)相关历史信息而不遗忘方面面临着问题。 在我们的方法中,我们避免了循环网络的复杂性,以及确保其内存充分性所涉及的问题。相反,我们的学习到学习方法完全由简单和快速前馈cnn定义。 Embedding and Metric Learning Approaches 以往的方法在学习目标少shot问题时具有一定的复杂性。另一类方法旨在学习一组投影函数,从目标问题中获取查询和样本图像,并以前馈方式对其进行分类[39,36,4]。一种方法是根据样本集[4]参数化前馈分类器的权重。这里的元学习是训练辅助参数化网络,学习如何根据少量样本集对给定的前馈分类问题进行参数化。基于度量学习的方法旨在学习一组投影函数,以便在嵌入中表示时,图像易于使用简单的最近邻或线性分类器识别[39,36,20]。在这种情况下,元学习的可迁移知识是投影函数,目标问题是一个简单的前馈计算。 与我们最相关的方法是[36]的原型网络和[20]的孪生网络。这些方法侧重于学习嵌入,转换数据,使其可以用固定的最近邻[36]或线性[20,36]分类器进行识别。相比之下,我们的框架进一步定义了一个关系分类器CNN,风格为[33,44,14](而[33]侧重于推理同一图像中两个对象之间的关系,这是为了解决不同的问题。)与[20,36]相比,这可以看作是提供了一个可学习的而不是固定的度量,或者是非线性的而不是线性的分类器。 与[20]相比,我们受益于从头开始的端到端方式的情景训练策略,与[32]相比,我们避免了集到集RNN嵌入样本集的复杂性,而简单地依赖于池化[33]。 Zero-Shot Learning 我们的方法是为少镜头学习而设计的,但是通过修改样本分支来输入单个类别描述而不是单个训练图像,优雅地将空间扩展到零镜头学习(ZSL)。当应用于ZSL时,我们的架构与学习对齐图像和类别嵌入的方法有关,并通过预测图像和类别嵌入对是否匹配来执行识别[11,3,43,46]。与之前基于度量的少镜头方法类似,大多数方法在结合图像和类别嵌入后,采用固定的人工定义的相似度量或线性分类器。相比之下,我们再次受益于更深层次的端到端架构,包括以我们学习的卷积关系网络形式学习的非线性度量;以及基于情景的训练策略。 MethodologyProblem Definition 我们考虑了少镜头分类器学习的任务。形式上,我们有三个数据集:训练集、支持集和测试集。支持集和测试集共享相同的标签空间,但训练集有自己的标签空间,该标签空间与支持集/测试集不相交。如果支持集包含针对C个唯一类的K个标记示例,则目标少射问题称为C-way K-shot。 仅使用支持集,原则上我们可以训练分类器为测试集中的每个样本x分配类标签y。然而,由于支持集中缺乏标记样本,这种分类器的性能通常不能令人满意。因此,我们的目标是在训练集上进行元学习,以提取可迁移的知识,使我们能够在支持集上进行更好的少镜头学习,从而更成功地对测试集进行分类。 利用训练集的一种有效方法是通过基于集的训练来模拟少镜头学习设置,如[39]中所提出的。在每次训练迭代中,随机从训练集中选取C类,每个C类中有K个标记样本,作为样本集S = {(xi, yi)}mi=1 (m = K × C),并从这些C类样本的剩余部分中选取一部分作为查询集Q = {(xj, yj)}nj=1,形成一个集。这个示例/查询集分割的目的是模拟在测试时将遇到的支持/测试集。如果需要,可以使用支持集对从样本/查询集训练的模型进行进一步的微调。在本工作中,我们采用了这种基于情节的训练策略。在我们的少数镜头实验(见4.1节)中,我们考虑了一次镜头(K = 1,图1)和五次镜头(K = 5)设置。我们还处理K = 0零次学习情况,如3.3节所述。 Model ? 实验?Omnniglot实验效果 Mini-imagenet效果 ? ? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/26 20:39:55- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |