| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> RGB+深度图像 语义分割paper阅读笔记(ICRA2021) -> 正文阅读 |
|
[人工智能]RGB+深度图像 语义分割paper阅读笔记(ICRA2021) |
paper:Efficient RGB-D Semantic Segmentation for Indoor Scene Analysis 本文主要贡献在以下: 本文的语义分割结合了RGB图像和深度图像 as input, 主要针对室内场景, 看起来很复杂的样子,其实分解开来也没那么复杂, 因为如果feature在多个stage中进行fuse,分割结果会提升,所以可以看到深度图和RGB图的特征在中间多个stage都有RGB-D Fusion. 但是每个3x3卷积被替换成图中紫色部分的block, 即把3x3分解成了3x1 和 1x3, 加ReLU在中间, RGB Fusion用的是Squeeze and Excitation模块。具体在图中左下角绿色模块。 Context module是解决ResNet的有限感受野问题,把不同scales的feature结合,类似Pyramid Pooling Module in PSPNet, Decoder 但是上采样后会损失一些细节,因为细节在encoder的downsampling中会丢失, 在恢复到比input image小4x的图像后,跟一个3x3卷积层,再用2个上采样层恢复到input image的resolution. 一般算loss都是用结果和ground truth比较,作者为了避免只用最后的结果,会在每个decoder模块输出一个结果, 参数 训练用了500个epoch, batch size为8, 在AGX上的帧率 mIOU |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 0:42:32- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |