| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> PointRend的原理与代码解读 -> 正文阅读 |
|
[人工智能]PointRend的原理与代码解读 |
PointRend的提出是为了解决实例分割精度不高的问题,当然也可以应用到语义分割上。PointRend是如何解决分割结果精细度不高的问题呢?下面回顾一下语义分割领域最经典的FCN模型。 FCN语义分割思想:对原始图像经过不断的卷积和池化,得到高语义低分辨率特征,然后进行分类,分类后直接上采样(线性插值类算法)到与图像大小一致的结果,这样必然会导致分割结果很粗糙,尤其是边界部分误差很大。 (代码层面上实现,有一种是原始图像经过卷积池化后,上采样到原始图像大小后再进行像素级的分类预测) 后面大部分的语义分割模型都是基于FCN框架衍生,并在最后上采样部分做了修改,如UNet,deeplabV3+,PSPNet分类预测后上采样的倍数都不一样。 PointRend核心思想:语义分割经过多次池化降采样后,直接预测分类结果,而不是上采样到跟原图像同样尺寸。在粗糙的分割结果中选择分割精度不高的点,然后在这些点上结合粗糙和精细的特征训练MLP模型,对这些点进行重新预测,在训练阶段用重新预测的结果替换原来预测的粗糙结果进行loss计算。推理阶段重新预测的结果替换原来预测的粗糙结果。 训练阶段: 以deeplabv3+为例,输入影像经过特征提取backbone(如RestNet)后,选取layer2和layer4层特征,其中layer4层经过deeplabv3+的ASPP后,直接预测分类结果,称为corase分类结果。layer2称为精细特征fine。然后在corase分类结果中选择分类结果不是非常确定的点(数目为输入影像高度的16分之一),然后根据这些不确定点的坐标分别在corase分类结果特征和layer2特征上采集相应的特征,最后把特征cat后送入mlp进行训练,得到新的预测结果,叫rend。 损失:分为2个,一个是corase分类结果直接上采样后与gt对比得到的seg loss;另一个是rend预测结果与根据不确定点坐标在gt上采样得到的结果进行计算得到的points loss。 ASPP 推理阶段: 以deeplabv3+为例,输入影像经过特征提取backbone(如RestNet)后,选取layer2和layer4层特征,其中layer4层经过deeplabv3+的ASPP后,直接预测分类结果,称为corase分类结果。layer2称为精细特征fine。然后对corase分类结果进行2倍上采样,再在上面进行点采样(文章8096个points);接着再在layer2层采样,然后把2种采样特征cat起来,放入mlp进行预测,预测结果代替2倍上采样后的corase分类结果; 一直迭代下去,直到操作到原始图像尺寸大小为止。 注意点:训练和推理的不确定点的采样策略不一样 代码理解: 函数def point_sample(input, point_coords, **kwargs)调用了F. grid_sample函数进行采样。 def grid_sample( 官方说明: Given an input and a flow-field grid, computes the output using input values and pixel locations from grid. 个人理解: 简单来说就是,提供一个input的Tensor以及一个对应的flow-field网格(比如光流,体素流等),然后根据grid中每个位置提供的坐标信息(这里指input中pixel的坐标),将input中对应位置的像素值填充到grid指定的位置,得到最终的输出。? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 5:38:47- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |