| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> DMSANet: Dual Multi Scale Attention Network -> 正文阅读 |
|
[人工智能]DMSANet: Dual Multi Scale Attention Network |
摘要????????近年来,注意机制在计算机视觉领域中得到了广泛的应用。为了提高网络的性能,已经做了大量的工作,尽管几乎总是会导致计算复杂性的增加。在本文中,我们提出了一种新的注意力模块,与大多数现有模型相比,该模块不仅实现了最佳性能,而且具有较少的参数。我们的注意力模块可以很容易地与其他卷积神经网络集成,因为它的轻量级特性。提出的双多尺度注意网络(DMSANet)由两部分组成:第一部分用于提取不同尺度的特征并对其进行聚合,第二部分使用空间和通道注意模块并行地自适应地将局部特征与其全局依赖性相结合。我们在ImageNet数据集上测试了我们的网络性能,在MS COCO数据集上测试了图像分类、对象检测和实例分割。 1.Introduction????????人眼的局部感受野促成了卷积神经网络的构建,这为计算机视觉的最新进展提供了动力。著名的InceptionNet中使用的多尺度体系结构(Szegedy et al.,2016)从不同大小的卷积核中聚合多尺度信息。注意力网络最近吸引了很多注意力,因为它允许网络只关注关键方面,而忽略那些没有用处的方面(Li et al.,2019),(Cao et al.,2019)和(Li et al.,2019)。 ????????利用注意机制在计算机视觉中成功地解决了图像分类、图像分割、目标检测和图像生成等诸多问题。大多数注意机制可大致分为通道注意和空间注意两种类型,这两种类型都通过使用不同的聚合策略、转换和强化功能聚合所有位置的相同特征来强化原始特征(Zhang等人,2021)。 ????????一些工作将这两种机制结合在一起,并取得了更好的结果(Cao等人,2019年)和(Woo等人,2018年)。通过使用有效的通道注意和1×1卷积,计算负担减少了(Wang et al.,2020)。最流行的注意力机制是Squeeze and Excitation模块(Hu等人,2018b),它可以以相当低的成本显著提高性能。使用“通道重排”操作(Zhang和Yang,2021)实现两个分支之间的信息通信。它使用分组策略,将输入特征映射沿通道维度划分为多个组。 2 Related Work????????阻碍这一领域发展的主要问题有两个:1)空间和通道注意以及两者结合使用的网络只使用局部信息,而忽略了长距离的通道依赖性;2)以前的体系结构未能捕获不同尺度的空间信息,以提高鲁棒性并处理更复杂的问题。这两项挑战分别由(Duta等人,2020年)和(Li等人,2019年)解决。这些体系结构的问题是参数的数量大幅增加。 ????????金字塔分割注意(PSA)(Zhang等人,2021)能够在多个尺度上处理输入张量。采用多尺度金字塔卷积结构,在每个通道特征图上集成不同尺度的信息。提取多尺度特征图的通道方向注意权重,从而实现长距离通道依赖。 ????????非局部块(Wang et al.,2018)旨在构建密集的空间特征图,并使用非局部操作捕获长期依赖关系。(Li等人,2019)使用了一种动态选择注意机制,允许每个神经元根据输入特征图的多个尺度自适应调整其感受野大小。(Fu等人,2019)提出了一个网络,通过将来自不同分支的这两个注意模块相加,将局部特征与其全局依赖性相结合。 ????????多尺度体系结构已成功应用于许多视觉问题(?),(Hu等人,2018b)和(Sagar和Soundrapandiyan,2020)。(Fu等人,2019年)通过将来自不同分支的两个注意模块相加,自适应地将局部特征与其全局依赖性相结合。(Hu等人,2018a)使用空间扩展,使用深度卷积来聚合单个特征。我们的网络借鉴了(Gao et al.,2018)的思想,利用网络捕捉局部跨通道互动。 ????????最先进的注意力模块的性能(精度)与计算复杂性(参数数量)如图1所示: ?????????我们的主要贡献总结如下:
3 Method3.1 Feature Grouping????????Shuffle Attention模块将输入的特征映射划分为多个组,并使用Shuffle单元将通道注意和空间注意集成到每个组的一个块中。子特征被聚合,并使用“通道重排”操作在不同子特征之间传递信息。 ????????对于给定的特征映射 3.2 Channel Attention Module????????通道注意模块用于有选择地加权每个通道的重要性,从而产生最佳输出特性。这有助于减少网络参数的数量。让 ?????????SE块中第c个通道的注意权重可以如等式2所示写入: ? ? ? ? ?其中 ????????我们计算来自原始特征 ?????????其中, 3.3 Spatial Attention Module????????我们使用 ? ? ? ? ?将由A∈ ?????????其中, 3.4 Aggregation????????在网络的最后部分,所有子特征都被聚合。我们使用“通道重排”操作来实现沿通道维度的跨组信息流。我们模块的最终输出与输入大小相同,这使得我们的注意力模块很容易与其他网络集成。 ????????整个多比例尺预处理特征图可通过方程7中定义的串联方式获得: ?????????其中F∈ ?????????最后,我们将多尺度通道注意力 ?3.5 Network Architecture????????我们提出了DMSA模块,目的是构建更高效和可扩展的体系结构。我们网络的第一部分借鉴了(Li et al.,2019)和(Zhang and Yang,2021)的观点。输入特征图X沿着通道维度拆分为N个部分。对于每个分割的部分,它有 ????????这两个分支由位置注意模块和通道注意模块组成,如(Fu et al.,2019)中提出的语义分割。我们网络的第二部分做了以下工作:1)构建一个空间注意矩阵,该矩阵对特征的任意两个像素之间的空间关系进行建模;2)注意矩阵与原始特征之间的矩阵乘法。3) 对得到的矩阵和原始特征进行元素求和运算。 ????????操作符concat和sum用于重塑特征。来自两个并行分支的特征被聚合以生成最终输出。完整的网络架构如图2所示: ?????????图3中,我们将我们的网络架构与Resnet(Wang et al.,2017)、SENet(Hu et al.,2018b)和EPSANet(Zhang et al.,2021)进行了比较。我们在3×3卷积和1×1卷积之间使用DMSA模块。我们的网络能够提取不同尺度的特征,并在通过注意模块之前聚合这些单独的特征。 ?????????我们提议的注意力网络的架构细节如表1所示: 3.6 Implementation Details????????我们使用残差网络(He et al.,2016)作为主干,这在Imagenet数据集的图像分类文献中被广泛使用(Deng et al.,2009)。数据扩充用于增加数据集的大小,输入张量裁剪为224×224。使用随机梯度下降作为优化器,学习率为1e?4动量为0.9,最小批量为64。学习率最初设定为0.1,在总共50个epochs中,每20个epochs降低10倍。 ????????我们使用残差网络和FPN作为目标检测的骨干网络(Lin等人,2017a)。我们基准测试的检测器是MS-COCO数据集上的Faster RCNN(Ren et al.,2015)、Mask RCNN(He et al.,2017)和RetinaNet(Lin et al.,2017b)(Lin et al.,2014)。使用随机梯度下降作为优化器,权重衰减为1e?4,动量为0.9,每个GPU的batchsize为16,持续10个epoch。学习速率设置为0.01,每10个epoch减少10倍。 ????????例如,分割我们使用Mask RCNN(He et al.,2017)和FPN(Lin et al.,2017a)作为主干。使用随机梯度下降作为优化器,权重衰减为1e?4,动量为0.9,批处理大小为10个时代的每个GPU 4个。学习速率设置为0.01,每10个历元减少10倍。 4 Results4.1 Image Classification on ImageNet????????我们将我们的网络与之前在ResNet上的最新技术进行了比较,共有50层和101层。
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年4日历 | -2025/4/3 11:38:04- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |