IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Non-local Neural Networks -> 正文阅读

[人工智能]Non-local Neural Networks

Non-local Neural Networks

论文:“Non-local Neural Networks ” CVPR2018
Link:http://arxiv.org/abs/1711.07971

? 在语义分割论文中,最多被提到的词恐怕就是receptive field了,也就是感受野。在增加感受野的方式上基本大同小异,无非就是扩大卷积核用扩张卷积(空洞卷积)多叠几个卷积层(计算效率低下、要注意梯度爆炸/消失问题、优化问题),当然,这些操作都有一定的扩张感受野能力,但是缺点也是显而易见的,包括不限于增加计算量、损失邻域信息等等。所以,可以说,卷积操作是Local的,因为只有卷积核覆盖的那一个局部的信息有交互,再远了就没了。
? 本文提出了一种Non-Local的网络块,具有以下优势:(1)忽略不同位置上的距离,在卷积中,3*3的卷积核只能覆盖9个grid。(2)高效性,以更少的卷积层获取最好的结果。(3)输入输出大小不变,可以很方便插入到其它网络。

Non-Local Block

? Non-Local的思想如下图,这三个输入Θ、Φ、g与Attention机制里面的qkv十分相似,结构也很像,不过该图采用的是Embedding Gaussian。

image-20220715162313083

? 总体公式如下所示:
image-20220715164851288
? 其中xi代表残差连接,这样能使Non-local Block适用于各种预训练模型,而不必破坏初始化状态,只需要将Wz初始化为0即可。

形象化解示:

? 对于computer vision来说,假设X的Input_Size为**[batch, H, W, 1024],经过两个Embedded Gaussian中的两个嵌入权重变换imgimg后,得到Size为[batch, H, W, 512],然后分别reshape成[batch, HW, 512],然后对这两个输出进行矩阵乘(其中一个要转置),计算相似性,得到[batch, HW , HW],最后在第二个维度(最后一个维度)上做softmax操作,得到[batch, HW , HW]**的输出。这样做就是空间注意力,相当于找到了当前图片或特征图中每个像素与其他所有位置像素的归一化相关性

? 然后将g也采用一样的操作,先通道降维,然后reshape,得到**[batch, HW, 512]**输出;然后和 [batch, HW, HW]进行矩阵乘,reshape得到[batch, H, W, 512], 即将空间注意力机制应用到了所有通道的每张特征图对应位置上,本质就是输出的每个位置值都是其他所有位置的加权平均值,通过softmax操作可以进一步突出共性。最后经过一个1x1卷积恢复输出通道,保证输入输出尺度完全相同。

? 在实现的过程中通常先将channels变为1/2以减少计算量。

相似度度量函数

  • Gaussian这种想法来自于Non-Local mean,即采用高斯函数度量。
    image-20220715164416187
  • Embedded Gaussian 是对高斯函数的一种拓展,度量在嵌入空间内变量的相关性。
    image-20220715164349567
  • Dot product 点乘,以下公式采用embedded版本。
    image-20220715164510580
  • **Concatenation **
    image-20220715164541159

总结:总体感觉非常像Attention机制,还有些论文细节过两天再补上吧…

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-07-17 16:23:46  更:2022-07-17 16:26:15 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 0:56:15-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码