[人工智能] CMX: Cross-Modal Fusion for RGB-X SemanticSegmentation with Transformers

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> CMX: Cross-Modal Fusion for RGB-X SemanticSegmentation with Transformers -> 正文阅读

[人工智能]CMX: Cross-Modal Fusion for RGB-X SemanticSegmentation with Transformers

文章地址：CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with Transformers | Papers With Code代码地址：

huaaaliu/RGBX_Semantic_Segmentation (github.com)

这篇文章是语义分割NYUdepthv2数据集排名第一的方法，同时概括了多种辅助输入，这里只关注RGB-D输入。

首先要明白RGB图像提供了物体的彩色纹理特征。而对于一些不同的小物体他们拥有相同的纹理和颜色，就很难通过RGB图像将他们分割出来。

深度图像中每个像素的值是物体距离摄像机的距离，因此深度信息可以提供物体的几何形状信息，来帮助rgb一起辨别物体的边界。

因此如何有效地融入深度信息是非常重要的，我们可以把它分为两个策略，第一个是深度信息帮助提取RGB特征，被称作辅助引导。为下图中的a，代表有depth-aware,shape-aware,spatial-information-guided。

第二种是采用两个backbone分别提取rgb和其他模态。然后融合为一个特征进行下一步的分割。为下图中的b，代表作为ACNet，SA-Gate。

第三种是本文的方法，同时采用CNN和Transformer，即从feature图片维度和序列维度进行融合。采用transformer是为了补充卷积缺少的长范围依赖。

作者提出了CMX框架，采用了基于VIT的模型，用来进行特征的交互和融合，CMX包含两个模块，分别为FRM（跨模态特征完善），利用空间和通道关系，使两个分支都能关注与对方的互补信息，用来解决引入多模态产生的噪声问题。另一个是FFM（特征融合）模块，融合经过提纯的RGB和depth信息，并且FFM模块包括两个阶段，分别为交叉注意力机制和通道编码。