| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Fully Convolutional Networks for Semantic Segmentation -> 正文阅读 |
|
[人工智能]Fully Convolutional Networks for Semantic Segmentation |
fcn提出了一个新颖的架构,目前来看,这也几乎是目前所有的语义分割问题的架构,encoder-decoder架构。 1.introduction ????????from coarse to fine inference is to make a prediction at every pixel,从粗推理到精细推理的下一步是对每个像素进行预测。 Semantic segmentation faces an inherent tension between?semantics and location: global information resolves?what while local information resolves where. 语义分割面临语义和位置的内在张力:全局信息在解决什么,局部信息在解决什么,深度特征层次在local-to-global金字塔上联合编码位置和语义信息。我们定义了一种新颖的skip结构来联合deep,coarse,semantic信息和shallow,fine,appearance信息。 2.fully convolutional networks ????????Locations in higher layers correspond to the locations?in the image they are path-connected to, which are called?their receptive fields.较高层中的位置对应于他们路径连接到图像中的位置,成为他们的感受野。convnets建立在平移不变性上, 它们的基本组件(卷积、池化和激活函数)在局部输入区域上运行,并且仅依赖于相对空间坐标。 2.1 adapting classifiers for dense prediction ????????全连接层具有固定的维度并丢弃了空间坐标,让位置信息消失了,只保留语义信息,因此将全连接操作更换为卷积操作可以同时保留位置信息及语义信息,达到给每个像素分类的目的。这些全连接层也可以视为具有覆盖其整个输入区域内核的卷积,这样做会将他们转换为完全卷积的网络,该网络接受任何大小的输入和输出分类图。用fc产生最后一层输出和cnn是等效的,但是cnn要快的多。全卷积的输出是相对输入大小减少一个因子,该因子等于输出单元的感受野的像素步长。 fc输出的是1x1x1000的一个向量,1000维经过softmax之后,概率最高的就是预测的类别,如果换成全卷积输出的就是热力图,但是也是1000张图,每个像素点都有1000类的预测,取每个像素点预测的最大值。 2.2 shift-and-stitch is filter rarefaction ? ? 这块后续也并没有采用这个方法,而是通过上采样做。 2.3? upsampling is backwards strided convolution ? ? to connect coarse outputs to dense pixels is interpolation.将粗略输出到密集像素的方法是插值。此处是用反卷积效果好一点。 2.4?两种训练方法,在mmseg中应该对whole和slice两种方式 3.segmentation architecture 这块的输入多以一张原图和一张mask这种形式,这也是最为普遍的一种训练集 3.1?from classifier to dense fcn 丢掉了最终的分类层,并将所有的fc层转成卷积层,我们附加一个通道维度为21的1x1卷积来预测每个粗略输出位置的每个voc类(包括背景)的分数,然后是一个反卷积层,将粗略输出双线性上采样到像素密集输出。 3.2 combining what?and?where 相对非常简单的上下融合,其实fpn也有类似的效果,但是在文字检测上一般是fpn出来的层做融合,目标检测上一般是分而治之,语义分割将pred还原到label在做预测。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 7:34:38- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |