IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> [论文笔记]DDRNet -> 正文阅读

[人工智能][论文笔记]DDRNet

Abstract

  • DDRNet由两个深度分支组成,在这两个分支之间执行多次双边融合

  • 上下文提取器Deep Aggregation Pyramid Pooling Module (DAPPM)扩大有效感受域,并基于低分辨率特征映射融合多尺度上下文

  • 精度高且轻量

Introduction

  • Bisenet提出了一种由空间路径和上下文路径组成的新型双边网络,空间路径利用三个相对较宽的3×3卷积层来捕获空间细节,上下文路径是一个小型的预训练backbone,用于提取上下文信息

    • 这种双边网络相对于encoder-decoder结构来说推理速度更快

  • DDRNet

    • 从一个主干开始,然后分离成两个并行的分支

      • 一个分支生成高分辨率特征图

      • 一个分支通过多次下采样提取高级语义信息

    • 两个分支之间进行多次双边连接,实现高效信息融合

    • 提出了一个DAPPM的新模块,该模块将特征聚合与金字塔池化相结合,输入低分辨率特征图,提取多尺度上下文信息,并以级联方式合并上下文信息

Related work

High-performance Semantic Segmentation

  • DeepLabv3+提出了一种简单的解码器,将上采样特征映射与低级别特征映射相融合,减轻了对直接从扩展卷积生成的高分辨率特征图的要求

  • HRNet强调了深度高分辨率表示,反映了比膨胀主干更高的效率,并且由于高分辨率信息通道数较小,计算效率和推理速度更高

Real-time Semantic Segmentation

  • 大部分实时方法都是基于两种结构

    • encoder-decoder结构

    • 二分支结构

Encoder-decoder Architecture

  • encoder一般是一个包含重复下采样的深度网络,可以提取上下文信息,decoder通过插值法或反卷积将特征图的分辨率恢复,与基于扩张卷积的方法相比节省了计算开销

  • SwiftNet保留了ImageNet上预训练encoder的优势,并利用轻型横向连接来帮助进行上采样

  • FANet通过快速注意模块和额外下采样,在速度和准确性之间实现了良好平衡

  • SFNet设计了一个Flow Alignment Module(FAM),用于对齐相邻层的特征图,以实现更好的融合

Two-pathway Architecture

  • encoder-decoder结构虽然减少了计算开销,但是由于多次下采样,导致空间细节信息丢失,并且无法通过上采样完全恢复

  • 二分支包含一条提取语义信息的路径,一条高分辨率的浅层路径提供了丰富的空间细节作为补充

  • BiSeNetV2两个分支从一开始就分离,使用全局平均池化进行上下文嵌入,并提出了基于注意的特征融合

Lightweight Encoders

  • MobileNet将标准卷积替换为深度可分离卷积,以减少参数和计算量

  • ShuffleNet利用分组卷积的紧凑性,提出了一种channel shuffle操作,促进不同组之间的信息融合

Context Extraction Modules

  • Atrous Spatial Pyramid Pooling (ASPP)由具有不同扩张率的扩张卷积并行组成,可以处理多尺度上下文信息

  • PSPNet中的Pyramid Pooling Module(PPM)通过在卷积层之前实现池化,在计算效率上比ASPP更高

  • Dual Attention Network(DANet)利用位置注意和通道注意进一步改善特征表示

  • Object Context Network (OCNet)使用自注意机制来捕获物体上下文信息

Method

Deep Dual-resolution Network

  • backbone结构

    ?

  • 其中详细结构配置如下

    ?

  • 双边融合包括高分辨率融合到低分辨率和低分辨率融合到高分辨率

    • 高分辨率融合到低分辨率前通过一个conv3x3 stride 2的序列下采样并扩展通道,然后通过逐像素相加融合

    • 低分辨率融合到高分辨率前通过conv1x1压缩通道,然后通过双线性插值上采样再逐像素相加融合

      ?

Deep Aggregation Pyramid Pooling Module

  • 用单个conv3x3或conv1x1来融合所有多尺度上下文信息是不合理的

    ?

  • DAPPM首先将下采样后的特征图进行上采样,然后通过多个conv3x3以分层残差方式融合不同尺度的上下文信息,最后拼接所有特征图并使用conv1x1压缩通道

  • 侧边还增加了conv1x1特征映射,便于优化

  • DAPPM虽然卷积层多,但是由于是在1/64的分辨率上执行,并不会影响推理速度

Overall Architecture for Semantic Segmentation

?

Deep Supervision

  • 训练阶段的额外监督可以简化深度CNN的优化

  • 最终loss是交叉熵loss的加权和

    • Lf为final loss,Ln为正常交叉熵,Lα为辅助交叉熵,α为辅助损失的权重

Conclusion

  • 一个新的深度双分辨率网络作为实时语义分割的有效backbone

  • 一个新的上下文提取器DAPPM

  • 首次将深度高分辨率表示应用到实时分割

  • DDRNets主要由residual basic blocks和bottleneck blocks组成,通过缩放模型宽度和深度,提供了广泛的速度和精度权衡

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-18 17:38:31  更:2022-05-18 17:41:14 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 4:48:38-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码