IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Dual Path Learning for Domain Adaptation of Semantic Segmentation -> 正文阅读

[人工智能]Dual Path Learning for Domain Adaptation of Semantic Segmentation

Cheng Y, Wei F, Bao J, et al. Dual Path Learning for Domain Adaptation of Semantic Segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 9082-9091.

?

一、动机

在此之前,自监督学习( self-supervised learning,SSL)与风格迁移(image-to-image translation)一共包含如图一所示的两种应用于语义分割无监督域适应(unsupervised domain adaptation,UDA)的结合方式。如图1(a)是在目标域上进行域适应,而图1(b)是在源域上进行域适应。二者都是在源域的gt标签与根据一定规则所产生的目标域伪标签监督下训练分割模型。不同之处在于是在源域上进行风格迁移(图1 a)还是目标域上进行风格迁移(图1 b)。

但是不管是图1(a)还是(b)所示的方式,其实都受限于风格迁移会改变图像内容而导致图像内容与与标注的像素标签不一致的问题,即visual inconsistency

具体来说,图1(a),visual inconsistency?使得源域的GT对于转换后的图像不一定正确(因为GT是对应转换前的,而转换后的图片如图红框放大所示,内容可能会变),从而使得模型朝着不正确的方向优化。而图1(b),虽然源域监督信息正确,但是目标域风格迁移的使用同样会导致模型的优化不正确。

因此,图像转换引起的视觉不一致干扰了目标域域自适应(domain-T)中全监督部分的训练和源域域自适应(domain-S)中SSL部分的训练。相比之下, ?domain-T中的SSL部分和domain-S中的全监督部分不受影响。这样来看,上述两种方式是完全互补的。

是否可以将这两个互补的适应管道合并成一个单一的框架,以便更好地利用它们每个优点,并使它们相互促进?基于此作者提出了下面这个模型。

二、pipeline

分解

1、warm up 阶段(实际上就是对分割模型进行预训练)

1)源域分割模型的预训练

这个比较简单,由于源域有原始图像以及对应的GT,所以直接按照全监督的方式进行训练即可。

2)目标域分割模型的预训练

由于目标域图像没有对应的GT,所以这个预训练稍显复杂。作者想出的一个直接的的想法是采用风格迁移模型(CycleGAN)将源域的图像数据转换到目标域的风格。然后,使用转换后的源域图片以及其对应的GT来预训练目标域分割模型。

但是,这种预训练方式很显然面临着之前提到的visual inconsistency问题。因此,作者在上述预训练方式的基础上,增加了一点改动。

如上图3所示,作者提出了一种标签修正的方式。在预训练中动态修正用于监督模型的标签。标签的修正基于转换后的源域数据输入分割模型产生的伪标签以及原始源域图片对应的真值标签GT。如果伪标签中预测的类别在对应的概率图的概率减去GT中的类别在概率图中对应的概率大于某个阈值,那么该位置的类别就取伪标签预测的类别,否则保持原有GT的类别。上述过程可以公式化为如下。

2、风格迁移

风格迁移使用的框架为CycleGAN。风格迁移旨在减少源域与目标域视觉外观(例如,物体纹理和颜色)之间的差距。但是,风格迁移会不可避免的引起的visual inconsistency,可能会误导后续的自适应分割学习,因此作者在CycleGAN基础上引入额外的约束来保持视觉上的一致性。

具体来说,本篇文章借鉴了BDL的约束思想。在BDL中,提出了一种perceptual loss来约束转换后的图像与转换前图像内容的一致性。但是BDL只在目标域上进行了perceptual loss的约束。而在文中需要进行了双向的风格迁移。所以,perceptual loss在目标域与源域上都会应用。具体公式如下:

其中F_T与F_S分别表示各自分割模型中的编码器提取到的特征。具体L_per的计算形式可以在BDL中找到。

再加上CycleGAN的本身的对抗与重建损失函数,训练CycleGAN最终的损失函数形式为:

在上述损失函数的监督下,进行了CycleGAN的训练,以达到风格迁移的目的。

3、伪标签生成

训练好CycleGAN之后,我们可以将输入的图片转换到对应域图片的风格。然后使用到第一步中预训练好的两个分割模型来进行域适应。

不过在正式训练分割模型之前,需要完成一个目标域伪标签的产生规则制定。具体如下所示:

上述之所以还要用到M_T这个分割模型是因为使用M_T不需要进行风格迁移,所以不存在visual inconsistency的问题,因此可以用它来平滑下面那个需要使用风格迁移的分支的预测输出。同时,M_T的模型分割性能可能没有M_S好,因此,这二者是互相补充的关系。

三、实验结果?

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-11 22:11:31  更:2022-03-11 22:11:58 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 16:58:11-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码