| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 深度学习之COLA-Net -> 正文阅读 |
|
[人工智能]深度学习之COLA-Net |
这篇文章是首篇将局部(Local)注意力和全局(Non-Local)注意力进行结合来做图像重建的论文。文章作者设计了一个将局部注意力机制和全局注意力机制一起协同合作来重建图像的网络模型—— Note:
参考文档: COLA-Net: Collaborative Attention Network for Image RestorationAbstract为什么需要结合局部注意力机制和全局注意力机制?
本文的主要内容:
1 Introduction
小结一下:
2 Related Work
Non-Local?Attention
\colorbox{orange}{Non-Local Attention}
Non-Local?Attention? 在神经网络中,也就是将它用在Transformer中, y i , y j y_i,y_j yi?,yj?分别表示 Q 、 K Q、K Q、K,而 G ( y j ) G(y_j) G(yj?)往往是一个卷积层的输出结果(也就是 V V V,因此 K 、 V K、V K、V是同一个token的不同表达), ? ( y i , y j ) = y i T y j \phi(y_i,y_j)=y_i^T y_j ?(yi?,yj?)=yiT?yj?。所以式(1)表达的就是第 i i i个patch在搜索范围内找出所有的 y i y_i yi?并通过彼此之间的相似度来查询相应的 G ( y i ) G(y_i) G(yi?)值,最后进行加权平均之后的值就是第 i i i个patch结合所有patch相关性的输出值。 Note:
Local?Attention
\colorbox{yellow}{Local Attention}
Local?Attention? 为什么用
Q
K
T
QK^T
QKT来衡量相似度? 为什么Transformer需要大数据量才能进行学习? Note:
3 COLA-Net3.1 FrameworkCOLA-Net的
浅层特征提取
\colorbox{hotpink}{浅层特征提取}
浅层特征提取?
CAB级联模块
\colorbox{yellow}{CAB级联模块}
CAB级联模块? CAB块是COLA-Net的核心,其内部分为2部分:①特征提取模块(FEM);②双分支融合模块(DFM)。 FEM模块: 作者设计2种深层特征提取子网络,一种较为轻量型(Basic)的:它由6个包含
c
o
n
v
→
B
N
→
R
e
L
U
conv\to BN\to ReLU
conv→BN→ReLU级联组成,每个卷积层的size为
3
×
3
×
64
3\times 3\times 64
3×3×64;另一种是增强型(Enhanced)的残差网络结构,由5个残差块级联组成,每个卷积层都是
3
×
3
×
64
3\times 3\times 64
3×3×64。 DFM模块:
重建模块
\colorbox{tomato}{重建模块}
重建模块?
损失函数
\colorbox{dodgerblue}{损失函数}
损失函数? 3.2 Dual-branch Fusion Module整个
具体而言,FEM输出的feature map作为输入,即
F
F
E
M
i
F^i_{FEM}
FFEMi?,然后局部注意里和全局注意力两个并行分支分别进行注意力提取,分别输出
F
L
i
、
F
N
L
i
F^i_L、F_{NL}^i
FLi?、FNLi?,数学表达式如下: Fusion?Submodule \colorbox{yellow}{Fusion Submodule} Fusion?Submodule? 接下来就要进入融合子网络,它本质也是个通道注意力网络(channel-wise):首先将
F
N
L
i
、
F
L
i
F_{NL}^i、F^i_L
FNLi?、FLi?进行相加;然后通过全局平均池化输出
v
∈
R
C
v\in \mathbb{R}^C
v∈RC;接着分别用2个全连接层
H
F
C
1
(
v
)
、
H
F
C
2
(
v
)
\mathcal{H}_{FC}^1(v)、\mathcal{H}^2_{FC}(v)
HFC1?(v)、HFC2?(v)输出2个各自
C
C
C通道的张量,并通过通道合并成
2
C
2C
2C的张量;最后使用softmax获取
[
0
,
1
]
[0,1]
[0,1]的值,然后将结果分为2份,各自为
C
C
C个通道,即
w
N
,
w
N
L
∈
R
C
w_N,w_{NL}\in\mathbb{R}^C
wN?,wNL?∈RC,并分别与对应的
F
N
L
i
、
F
L
i
F_{NL}^i、F^i_L
FNLi?、FLi?进行元素相乘得到最终的结果
F
C
A
B
i
F^i_{CAB}
FCABi?。
为了验证融合的效果,作者使用热度图来反映,具体热值
h
h
h定义如下:
3.3 Local Attention submodule
3.4 Non-local Attention submodule
Comparison?and?Analysis
\colorbox{violet}{Comparison and Analysis}
Comparison?and?Analysis?
Patch-wise?Non-local?Attention?Model \colorbox{lightseagreen}{Patch-wise Non-local Attention Model} Patch-wise?Non-local?Attention?Model? 上图就是本文提出的一种用于Vision的新型自注意力模块,这种结构和ViT是不同的。 ③接下来我们将
Q
、
K
Q、K
Q、K的3D-patch分别进行reshape,每一个patch都flatten为1D的向量,这样就可以获取
N
×
(
C
?
W
p
?
H
p
)
N\times (C\cdot W_p\cdot H_p)
N×(C?Wp??Hp?)的2D矩阵
Q
~
、
K
~
\tilde{Q}、\tilde{K}
Q~?、K~; ⑤:最后接一个卷积层以及和输入端相加来减轻残差训练的压力以及避免卷积层造成的信息损失。 小结一下:
作者为了证明上述自注意力网络可以比Figure 4(a)的方法捕获更多有用的长距离依赖信息,将2者进行比较,热度图如下: 4 Experiments略 5 Conclusion
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 4:51:51- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |