IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN -> 正文阅读

[人工智能]CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN

摘要

本文从网络体系结构的角度出发,提出了跨阶段局部网络(CSPNet)来解决以往工作中需要大量推理计算的问题。本文将问题归结为网络优化中的重复梯度信息。所提出的网络通过从网络阶段的开始和结束集成特征映射来注重梯度的可变性。CSPNet易于实现,并且足够通用,可以处理基于ResNet、ResNeXt和DenseNet的体系结构。

网络结构

DenseNet

Alt

图1 DenseNet

DenseNet的每个阶段包含一个dense block和一个transition layers(放在两个Dense Block中间,是因为每个Dense Block结束后的输出channel个数很多,需要用11的卷积核来降维),每个dense block由k个dense layer组成。第i个dense block的输出经过transition layers降维后将成为第(i+1)个dense block的输入。
DenseNet的机制可以表示为:
在这里插入图片描述
权重更新方程可以写成:
在这里插入图片描述
大量的梯度信息被重复用来更新不同dense block的权重。这将导致不同dense block反复学习相同的梯度信息。

CSPDenseNet

在这里插入图片描述

图2 Cross Stage Partial DenseNet (CSPDenseNet)

CSPDenseNet的一个阶段由partial dense block和partial transition layer组成。
在partial dense block中,feature map分为 x 0 = [ x 0 ′ , x 0 ′ ′ ] x_0=[x_0^{'},x_0^{''}] x0?=[x0?,x0?] x 0 ′ ′ ] x_0^{''}] x0?]直接连接到阶段终点, x 0 ′ ] x_0^{'}] x0?]经过一个dense block。
CSPDenseNet的前馈传递和权重更新如下。
在这里插入图片描述
来自dense layers的梯度是单独集成的(separately integrated)。另一方面,没有经过dense layers的特征图 x 0 ′ x^{′}_0 x0?也是单独集成的(separately integrated)。更新权重的梯度信息,两边不包含属于其他边的重复梯度信息。
总的来说,提出的CSPDenseNet保留了DenseNet的特征复用特性的优点,但同时通过截断梯度流,防止了过多的重复梯度信息。这一思想通过设计分层特征融合策略并用于partial transition层来实现。

Partial Dense Block

设计Partial Dense Block的目的是:

  • 增加梯度路径:通过分裂合并策略,可以使梯度路径的数目翻倍。由于采用了跨阶段的策略,可以减轻使用显式特征映射复制进行连接的缺点;
  • 平衡各层的计算:通常情况下,DenseNet底层的信道数远远大于增长率。由于部分dense block中的dense layer操作所涉及的底层信道只占原始信道的一半,因此可以有效地解决近一半的计算瓶颈;
  • 减少内存流量:假设dense block在DenseNet中的基本特征映射大小为w × h × c,增长率为d,并且共m层。然后,该dense block的CIO为 ( c × m ) + ( ( m 2 + m ) × d ) = 2 (c\times m)+((m^2+m)\times d)=2 (c×m)+((m2+m)×d)=2,部分dense block的CIO为 ( ( c × m ) + ( m 2 + m ) × d ) = 2 ((c \times m)+(m^2+m)\times d)=2 ((c×m)+(m2+m)×d)=2。虽然m和d通常比c小得多,但部分dense block最多可以节省网络内存流量的一半。
    Alt

图3

Partial Transition Layer

目的是使梯度组合的差异最大化。
本文设计了两种CSP-DenseNet变体来说明这种梯度流截断是如何影响网络的学习能力的。
Alt

图4

CSP(fusion-first)是指将两部分生成的特征映射连接起来,然后进行转换操作。如果采用这种策略,将会重复使用大量的梯度信息。
对于CSP(fusion last)策略,dense block的输出将经过转换层,然后与来自第1部分的特征映射进行连接。
采用CSP(fusion last)策略,梯度信息将不会被重复使用,因为梯度流被截断。

Exact Fusion Model

本文提出了一种EFM方法,它可以为每个anchor捕获一个合适的视场(Field of View),从而提高一阶段目标检测器的精度。提出的EFM能够更好地聚合初始特征金字塔。
在这里插入图片描述
为了解决大量的内存和计算开销,本文采用Maxout技术(类似于droupout)对特征映射进行压缩。

实验

消融实验

在这里插入图片描述
所提出的EFM比GFM慢2fps,但AP和AP50分别显著提高了2.1%和2.4%。

imagenet

在这里插入图片描述

MS COCO

在这里插入图片描述

推理速度

在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-18 17:43:23  更:2022-04-18 17:46:31 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 10:36:36-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码