| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 论文阅读《Dual-Awareness Attention for Few-Shot Object Detection》 -> 正文阅读 |
|
[人工智能]论文阅读《Dual-Awareness Attention for Few-Shot Object Detection》 |
Background & Motivation 小样本分类模型分为两类:optimization-based 的元学习方法和?metric-based 的度量学习方法。而小样本检测模型大多使用迁移学习和度量学习的方法来实现跨域学习,大多都采用平均特征来作为类的表征与模型输出的 Query 表征进行 concatenation 或 element-wise product 等来计算相似度。 Motivation 是现有的小样本检测模型在 base 类数据上精度普遍降低,此前直接将小样本分类模型的思想用在检测任务上的做法存在不恰当的地方并且?Support 的质量直接影响了模型的精度。因此本文聚焦到了两个问题:Support 的质量和怎么更好的建立 Support 和 Query 之间的联系。为了解决这些问题提出了?Dual-Awareness Attention(DAnA),包含两个模块:Background Attenuation(BA)和?Cross-image Spatial Attention(CISA)。 而这两个模块的 Motivation 分别是物理学中的?interference 现象和我们人类判断两个物体是否是同一类别的方法,即我们会找到最有代表性的特征来判断它。
Dual-Awareness Attention(DAnA)
BA 针对 Support image 而言,图中 Y 代表 Support image 的特征图(这里假设只有一张 Support image),只有这一个输入,We(C*1)是一个线性变换可学习的向量,计算公式如下: 其中 yi?是 1*C 的矩阵,代表着特征图每一个通道上同一像素的位置,经过 Softmax 得到特征图中每一位置的激活值。这些激活值可以看作 yi 的权重系数,再与 yi 相乘得到调整过各个通道每一像素权重的特征图 G(1*C,即图中画红色波浪线的地方)。每个特征图的特征向量 G(1*1*C)可以作为一个?specific pattern?的“信号”,这个 pattern 代表着局部信息。 但是直接使用这个 G 反而影响了模型的精度,文章中认为原因是:
受物理学 interference 现象的启发,两个信号的叠加要么是振幅更大要么趋于平稳。将最开始的特征图 Y 看作一个信号,将特征图 G 施加到这个信号,其中 α 是一个常数,取0.5: 因此对图像中的各个 pattern,属于一个类别的 pattern 将会获得“信号”增强,而不同的类别则将被削弱。 BA 模块可以看作一种注意力机制,保留前景的特征而抑制背景的特征。模块足够轻便,只有 We 是需要学习的参数。
CISA 中由两部分输入,第一部分是 BA 模块输出的不同 Support image 的特征图 Z1、Z2,第二部分是 Query image 的特征图 X。CISA 的核心思想是将 Support 中的特征转换成带有具体语义信息的?query-position-aware(QPA)特征,那些与 QPA 有着高响应的 Query 特征图的区域应被识别为目标。
有?Transformer 类似的 QKV 参数,分别表示为和,Wq 和 Wk 是两个可学习的参数矩阵(C`*C,C` 是 C 的四分之一)。Query 和 Support 之间的相似性得分为: 其中 μQ 和 μK 与 BA 模块中 yi 的含义相同,σ 是 softmax 函数。考虑最终的 attention map 应该不止与 Query 和 Support 有关,还应该与 Support 自身有关。 Wr 是 1*C 的矩阵,β 是常数,取0.1。输出的维度是 HQWQ*HSWS,可以看作 Query image 特征图(HQ*WQ)上不同空间位置的基于 Support image 的?attention map(HS*WS)。而 QPA 特征的计算如下: pi 代表了 Query 特征图上对应空间位置的?QPA 特征(应对问题 a),如果 Support Set 不止一张图像的话,QPA 特征可变为每张图像?QPA 特征的平均值:
同样 CISA 打破了物理的限制不用考虑对齐的问题(应对问题 b),因为 QPA 不是由一个简单的 Support image 的特征图得来,而是经过类似于 Transformer 的注意力计算: DAnA 将最后的输出 P 与原特征图 X 进行结合之后,可以直接输入到传统检测网络 Faster Rcnn 的 RPN 中。值得注意的是 DAnA 的输出与 Query image 的特征图大小是一样的,因此这一个即插即用的模块: 也可以加入到一阶段的检测网络中: Experiments TABLE Ⅰ中模型的训练都采用了两个 Trick:
Support image 用 zero-padding 成320*320。COCO 中与 PASCAL VOC 类别相同的20类作为 Novel 类,其余60类作为 Base 类。采用元学习的训练方法,每个 episode 中包含一个或多个 Support set,一张 Query image 以及他们的标注,每个 episode 选择目标类别中的一个类别作为训练目标。
N-way K-shot 的定义是训练时每一个类别都应包含 K 个目标,不论多少张图片。 TABLE Ⅱ 和 TABLE Ⅲ 的精度对比中的 1-shot、5-shot 是说 Support image 的数量。
从 PASCAL VOC 跨域到 COCO: 对模块进行了消融实验: Mask 是用 CNN 取代 BA 模块来实现注意力机制并与原特征图叠加,同时也证明了 RPN 对本文提出的 DAnA 的重要性。 Conclusion DAnA 是一个计算 Query 和 Support 之间语义信息的模块,提出了应对 Motivation 中几个问题的方法。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/11 19:54:47- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |