| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【CSPNet】《CSPNet:A New Backbone that can Enhance Learning Capability of CNN》 -> 正文阅读 |
|
[人工智能]【CSPNet】《CSPNet:A New Backbone that can Enhance Learning Capability of CNN》 |
CVPRW-2020 文章目录1 Background and MotivationSOTA 的 CNN 在诸如目标检测等计算机视觉任务中取得令人难以置信的结果,但比较依赖 costly computation resources 本文作者提出轻量级主干网络 Cross Stage Partial Network,achieve a richer gradient combination while reducing the amount of computation partitioning feature map of the base layer into two parts and then merging them through a proposed crossstage hierarchy.(splitting the gradient flow) 2 Related Work
3 Advantages / Contributions
公开数据集上精度不掉,计算量降低 4 Cross Stage Partial Network先看看原版的 DenseNet 详细分析可参考
This will result in different dense layers repeatedly learn copied gradient information.(红框处梯度重复了) 再看看作者的改进版 Cross Stage Partial DenseNet
分支一同 DenseNet(所以这里面还是存在梯度复用的情况) 分支二直接 Concat 分之一 transform 后的结果 再经一层 transform 保留 DenseNet 结构的同时,prevents an excessively amount of duplicate gradient information by truncating the gradient flow both sides do not contain duplicate gradient information that belongs to other sides 4.1 Partial Dense Block好处
前两个优点比较好理解,下面看看作者的这种设计是如何 Reducing memory traffic 的 作者是通过 CIO 评价指标来分析说明的 Convolutional Input/Output (CIO) which is an approximation of Dynamic Random-Access Memory (DRAM) traffic proportional to the real DRAM traffic measurement 计算公式如下
1)原版 DenseNet 的 CIO 去掉 h 和 w DenseNet block 中通道变化符合等差数列,公差为增长率 先回忆下等差数列的求和公式 m c + m ( m ? 1 ) 2 d mc + \frac{m(m-1)}{2}d mc+2m(m?1)?d
哈哈哈,感觉论文呢中 m ( m + 1 ) m(m+1) m(m+1) 搞错了 2)再看看改进后的 Cross Stage Partial DenseNet 的 CIO 输入被 split 成两份 m c 2 + m ( m ? 1 ) 2 d \frac{mc}{2} + \frac{m(m-1)}{2}d 2mc?+2m(m?1)?d 网络结构中 c c c 要远远大于 m m m 和 d d d,所以作者设计的这个 1 / 2 1/2 1/2 split 就能很大程度上降低 memory traffic 4.2 Partial Transition Layer设计的目的是 maximize the difference of gradient combination(truncating the gradient flow to prevent distinct layers from learning duplicate gradient information) fusion last 比 fusion first 要好,the gradient information will not be reused since the gradient flow is truncated 不同结构结果图如下 4.3 Apply CSPNet to Other Architectures4.4 Exact Fusion ModelCNN can be often distracted when it learns from image-level labels and concluded that it is one of the main reasons that two-stage object detectors outperform one-stage object detectors. EFM assembles features from the three scales(图 6 c 只画了 2 个 scale 的 fusion) 为了 balance computation,作者 incorporate the Maxout technique to compress the feature maps 5 Experiments5.1 DatasetsImageNet 5.2 Ablation Experiments1)Ablation study of CSPNet on ImageNet
2)Ablation study of EFM on MS COCO SAM 是 Spatial Attention Module 5.3 ImageNet Image Classification
5.4 MS COCO Object Detection5.5 Analysis1)Computational Bottleneck 2)Memory Traffic 6 Conclusion(own) / Future work
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 22:56:07- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |