IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文解析:SCA-CNN -> 正文阅读

[人工智能]论文解析:SCA-CNN

SCA-CNN

《SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networksfor Image Captioning》

总体介绍

?文章认为CNN具有三个非常重要的性质,channel,spatial,multilayer,但是现有的基于注意力机制的CNN方法大多只在网络最后一层的引入spatial attention机制,罔顾了channel和multilayer这两个特性。作者认为spatial信息是用于回答“哪里”重要,即feature map中哪些位置更为重要(对应原图中的感受野更为重要),channel信息是用于回答“哪些”重要,即feature map中的哪些channle(特征)更为重要,因为不同的channle由不同的filter得到,不同的filter可以认为是不同的特征提取子。而单单在最后一层利用spatial attention,产生了感受野过大,feature map不同位对应感受野差异性不足的问题。为此,作者提出了spactial and channle wise attention-CNN来更好的利用CNN前述的三个特性。

模型介绍

?SCA-CNN在某一层的运算流程如下公式:
V l = C N N ( X l ? 1 ) ( 1 ) γ l = Φ ( h t ? 1 , V l ) ( 2 ) X l = f ( V l , γ l ) ( 3 ) V^l=CNN(X^{l-1})\qquad(1)\\ \gamma^l=\Phi(h_{t-1},V_l)\qquad(2)\\ X^l=f(V^l,\gamma^l)\qquad(3) Vl=CNN(Xl?1)(1)γl=Φ(ht?1?,Vl?)(2)Xl=f(Vl,γl)(3)
可以看出对于我们首先会计算网络上一层的输出feature map V l ∈ R H ? W ? C V^l\in R^{H*W*C} VlRH?W?C,而后通过函数 Φ ( ) \Phi() Φ()计算出注意力 γ l ∈ R H ? W ? C \gamma^l \in R^{H*W*C} γlRH?W?C,再将得到的注意力图样与该层的输入feature map经函数 f ( ) f() f()组合得到该层的加权输入 X l X^l Xl,这里的 h t ? 1 h_{t-1} ht?1?可以认为是来及结果层面上的指导,文章是拿image caption问题做例子,先用CNN做特征提取模块(encoder),送入LSTM得到文字输出(decoder)。公式中的 h t ? 1 h_{t-1} ht?1?就是LSTM在前一时刻的隐状态,函数 f ( ) f() f()就是简单的点乘。实际上这个过程更好的顺序表述为(2),(3),(1),即先由前层的输出计算注意力,将输出与注意力点乘得到本层的真正输入,再送入本层CNN得到本层输出。

改进

?上式在理论层面上没有问题,但在实操层面存在着运算量过大的问题,因为注意力图样 γ l ∈ R H ? W ? C \gamma^l\in R^{H*W*C} γlRH?W?C,我们需要至少 O ( k H W C ) O(kHWC) O(kHWC)的内存(k和隐状态有关,但没看懂),因此作者将 γ l \gamma^l γl又细分为了通道层面的注意力和空间层面的注意力以分别计算,节省空间。
?空间层面的注意力计算如下:
a l = t a n h ( ( W s V l + b s ) ⊕ W h s h t ? 1 ) α l = s o f t m a x ( W i a + b i ) a^l=tanh((W_sV^l+b_s)\oplus W_{hs}h_{t-1})\\ \alpha^l=softmax(W_ia+b_i) al=tanh((Ws?Vl+bs?)Whs?ht?1?)αl=softmax(Wi?a+bi?)
其中 V V V为原始特征图样在空间层面上flatten的结果, V ∈ R C ? m , m = H ? W V\in R^{C*m},m=H*W VRC?m,m=H?W,最终得到 α l ∈ R m \alpha^l \in R^m αlRm,其余参数尺寸: W s ∈ R k ? C , W h s ∈ R k ? d , h t ? 1 ∈ R d , W i ∈ R k W_s\in R^{k*C},W_{hs}\in R^{k*d},h_{t-1}\in R^d,W_i\in R^k Ws?Rk?C,Whs?Rk?d,ht?1?Rd,Wi?Rk ⊕ \oplus 为矩阵向量相加,即把向量加在矩阵的每一行上。
?通道层面的注意力如下:
b l = t a n h ( ( W c ? v l + b c ) ⊕ W h c h t ? 1 ) β l = s o f t m a x ( W i ′ b + b i ′ ) b^l=tanh((W_c\otimes v^l+b_c)\oplus W_{hc}h_{t-1})\\ \beta^l=softmax(W'_ib+b'_i) bl=tanh((Wc??vl+bc?)Whc?ht?1?)βl=softmax(Wi?b+bi?)
其中 v v v为原始特征图样在空间层面上mean pooling结果, v ∈ R C v\in R^C vRC,最终得到 β ∈ R C \beta \in R^C βRC
根据是先计算空间层面的注意力还是通道层面的注意力,我们的SCA-CNN也可以细分为S-C和C-S类型,值得注意的是此时后一步运算用到的特征图样已不再是原始的特征图样,而是经前一步得到注意力加权得到的图样。详细流程见下图:
在这里插入图片描述

由函数 ? c ( ) \phi_c() ?c?()计算出在channel层面上的注意力分布 β l ∈ R C \beta^l\in R^C βlRC,在此基础上由函数 ? s ( ) \phi_s() ?s?()得到了spatial层面上的注意力分布 α l ∈ R H ? W \alpha^l\in R^H*W αlRH?W,最后将计算出的 α l , β l \alpha^l,\beta^l αl,βl与原始的 V l V^l Vl结合得到当前的加权后feature map。

实验结果

?文章实验主要是为了验证3个问题:

  1. 引入通道层面的注意力是否有用->通过对S,C,C-S,S-C,SAT模型效果比对,证明了当feature map层数过多时引入通道层面的注意力,模型表现更好;而将通道注意力与空间注意力结合则会达到最好的效果;
  2. 引入多层注意力是否有用-通过在S和C-S模型中引入不同数目的attenion module,发现在大部分实验里多层的效果要优于单层,但层数过多存在着过拟合的风险。
  3. 与现有SOTA模型相比,SCA-CNN效果怎么样->比大部分模型效果好的,略逊色与某些模型,要么因为是ensemble modle要么因为模型有着更优越的结构。

总结

?文章的主要思路还是在最初提出的两个问题,关注"what"和"where",得到了不错的结果,强调了通道和空间都很重要,至于multilayer,感觉效果没有很明显。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-12 16:27:40  更:2022-05-12 16:29:01 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/1 23:40:06-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码