| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 论文阅读《Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection》 -> 正文阅读 |
|
[人工智能]论文阅读《Semantic Relation Reasoning for Shot-Stable Few-Shot Object Detection》 |
论文地址:https://arxiv.org/abs/2103.01903 目录1、存在的问题深度学习算法通常需要大量带注释的数据才能获得优异的性能。为了获得足够的注释数据,一种常见的方法是从现实世界中收集大量样本,并花费大量时间进行标注以生成ground-truth标签。然而,这并不能从根本上解决样本量很少的问题。由于现实世界中的数据存在分布不平衡的问题,即长尾分布,总是存在一些只有少数样本可用的罕见案例。但是,不管数据的可用性如何,新类和基类之间的语义关系都是恒定的。 本文提出一种SRR-FSD算法,尝试在使用视觉信息的同时使用语义关系,并且将显式的关系推理引入到小样本目标检测中。 2、Introduction
如下图所示,横坐标为显式样本的数量,纵坐标为不同算法在同一数据集上的性能。 可以看出,对于显式样本而言,在同一数据集上的性能对显式样本数量非常敏感,一些小样本目标检测方法的1- shot性能不到5-shot 或10-shot性能的一半。 对于隐式样本而言,预训练模型可以提前从数据集中获取大量新类中的目标样本(即隐式样本),并在进一步训练之前将其知识编码到参数中。所以如果在训练backbone时,没有将ImageNet中的隐式样本剔除掉,那么backbone中就会包含新类的相关信息,会对模型的性能产生正面影响;如果从预训练数据集中删除这些隐式样本,则会对性能产生负面影响。
由上图可知本文提出的SRR-FSD算法对explicit shots(x轴)和implicit shots都更为稳定。 作者认为之所以在同一数据集上的性能对样本数量非常敏感,是因为没有考虑基类和新类之间的语义关系。 3、算法简介本文提出的小样本检测器SRR-FSD以端到端的方式同时从视觉信息和语义关系中学习新目标。 2、启发式知识图简单地使用原始嵌入,效果并不好: 在0 shot或者few shot的识别算法中,知识图G被定义为一个基于启发式的。它通常由常识知识的数据库构成,方法是通过规则路径对子图进行采样,使得语义相关的类有着更强的联系。例如,ImageNet数据集中的类具有从WordNet中采样的知识图,然而,小样本目标检测的数据集中的类别并没有很高的语义相关,也没有像ImageNet具有严格的层次结构。我们发现唯一可用的启发式是基于一篇图卷积方法中提到的object co-occurrence方法。尽管共现的统计数据很容易计算出来,但它并不等价于语义关系。 提出了由图像数据驱动的动态关系图,利用学习到的图进行关系推理,扩充原始嵌入以减少域间距(domain gap),同时弥补启发式知识图的不足 4、算法细节4.1、语义空间投影本文提出的SRR-FSD算法是建立在Faster R-CNN上的,可以分为两个阶段。
4.2、关系推理模块relation reasoningWe从自然语言中对语义概念的知识进行编码。零样本没有图像的支持image support,只能依靠embedding,而小样本便可以同时依赖图像和embedding来学习新类的概念。这些embedding可以在图像支持很少的时候指引检测器向一个合适的方向收敛。 但如果support增多,由于域间距(domain gap)的影响,来自embedding的知识可能造成误导使结果变差。因此,需要对语义信息进行增强来减少域间距,之前有个工作对每个词向量独立的训练一个转换,但本文利用的类间显式关系对于增强语义更有效果,也就是这里提出的动态关系图。 知识图是一个N X N的邻接矩阵,表示每个相邻邻接对之间的关系强度,通过图卷积运算进行分类操作。 动态关系图使用自注意力机制来实现,如下图所示。语义空间We输入到关系推理模块relation reasoning中,分别经过三个线性层f,g,h进行变换。 如果将线性层f、g、h、l中的变换分别表示为Tf、Tg、Th、Tl,那么可以推导出: 用We’表示的概率预测为: p = s o f t m a x ( W e ′ P v + b ) p=softmax(We'Pv + b) p=softmax(We′Pv+b) 另外,学习动态图的另一个优点是它可以很容易地适应新的类别。因为图不是固定的,而是从输入的语义空间中的词向量动态生成的。我们不需要重新定义一个新的图,也不需要从头重新训练检测器。可以简单地插入新类的相应嵌入并微调检测器。 4.3、解耦微调微调阶段,只解耦SRR-FSD的最后几层。
5、实验实验参数设置
输入图像的采样方法是:以50%的概率在基类数据集和心累数据集中随机选择一个数据集合,然后从所选择的数据集中随机选择一幅图像。 VOCVOC2007和2012的训练/评估集用于训练,2007测试集用于测试。在20个目标类中,有5个类被选为新类,其余15个是基类,有3个不同的基类/新类拆分。新类都有k个带标签的对象,其中k等于1,2,3,5,10。在第一个基础训练阶段,SRR-FSD训练了18个epoch,学习率在第12和第15个阶段乘以0.1。在第二个微调阶段,训练500× |Dn|步,其中 |Dn|是k-shot新数据集中的图像数。 COCO具有5000个图像的minival集用于测试,train/val集中的其余图像用于训练。在80个类别中,与VOC重叠的20个类别是k=10的新类别,每个类别30张,其余60个类别是基类。 跨域 COCO to VOC基类数据集设置和上一步中相同,使用COCO数据集的60类,新的数据集由VOC数据集的20个类中的每个类的10个样本组成。 隐式样本丢失为了研究本算法在更现实的情况下的性能,从预训练的分类数据集中删除新类。 消融实验语义空间投影使得模型更加稳定。 必备知识 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 22:49:06- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |