IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【弱监督学习】Weakly Supervised Adversarial Domain Adaptation for Semantic Segmentation in Urban Scenes -> 正文阅读

[人工智能]【弱监督学习】Weakly Supervised Adversarial Domain Adaptation for Semantic Segmentation in Urban Scenes

0. 前言

本文是2019年发表在IEEE Transactions On Image Processing期刊上的一篇关于弱监督的城市场景语义分割的文章,文章中采用两个域分类器进行对抗训练,从而提高模型的性能。

1.本文动机

  1. 现有方法在合成数据上训练的模型在真实数据上应用时性能不佳。(换言之,训练数据和测试数据存在域间漂移,导致网络泛化性能不佳);
  2. 现在还没有利用弱监督学习来解决全场景分割问题的算法。

2.本文方法

为更好讲解本文方法,首先先定义一些数学符号:

  • S \mathcal{S} S表示合成数据的域
  • T \mathcal{T} T表示真实场景数据的域
  • I S I_\mathcal{S} IS?表示合成数据集里的图像
  • I T I_\mathcal{T} IT?表示真实场景数据集里的图像
  • A S o b j A_\mathcal{S}^{obj} ASobj?表示合成数据集里的图像的目标级标签
  • A S p i x A_\mathcal{S}^{pix} ASpix?表示合成数据集里的图像的像素级标签
  • A T o b j A_\mathcal{T}^{obj} ATobj?表示真实场景数据集里的图像的目标级标签

为了让标签获取有更小的代价,本文使用弱监督学习的方法,所以真实场景的数据集里只有目标级标签,也就是Inexact的标注。所以本文一下的方法的设计,都是针对只有合成数据有pixel-level和object-level的标签,而真实数据只有object-level标签的情况。

整体方法pipeline如下图所示:(这个图中有一处小错误,Target Domain下面应该是only object-level labels)
请添加图片描述

2.1 弱监督分割

之前的方法大多基于FCN,因为FCN比较关注图像的local feature,比如纹理特征、颜色特征等等,这些local特征在不同数据域上的表现是不同的,所以面对cross-domain的数据,FCN的就远不如面对one-domain那样从容。这时,图像的structured feature就十分重要,因为它是在不同的域上表现都差不多的图像的最根本特征,也可以称作domain-invariant feature. 同时,因为对于真实的数据,我们只有object-level的标签,所以之前的全监督方法对于分割任务根本无法使用,故只能采用半监督的方式。

综上所述,我们需要一个分割方法,它既能兼顾图像的structured、local 特征,还能使用object-level标签来训练出分割网络,故本文首先提出了一个Detection and Segmentation stream (DS),如整体pipeline图的上半部分所示。DS结构包括Base-Net、SSD-512 detection Network和FCN-8s Segmentation Network,可以说是一个把分割和检测融为一体的多任务模型。DS的输入包括 I S I_\mathcal{S} IS? I T I_\mathcal{T} IT? I S I_\mathcal{S} IS?既有pixel-level又有object-level的标签,所以参与整个网络的训练,而 I T I_\mathcal{T} IT?只有object-level的标签,所以它只参与SSD-512的训练。整体的损失函数如下:
请添加图片描述
作者甚至没有加权,只是简单粗暴地把分割和检测的损失加到一起。

2.2 对抗学习适应不同域

2.1中提出的DS弱监督DS框架,能够学习到一些domain-invariant特征,但是纹理、颜色等local特征在不同域上的缺口还没有被学习到。所以这里引入对抗学习,训练一个辨别器去区分特征属于哪个域,训练一个生成器生成特征去迷惑辨别器。

本文依据对抗学习的思想,引入两个辨别器:PDC和ODC,分别辨别像素级和目标级的特征,之前的弱监督框架就可以看做生成器,通过对抗学习就能够让网络适应不同的域。

2.3 像素级域适应

PDC如图所示,是由一个卷积层和两个反卷积层组成,输入为像素级特征,输出为通道数为2的label图。
训练PDC的损失函数如下:
请添加图片描述
请添加图片描述
请添加图片描述
这个损失函数包括两项 L P D C \mathcal{L}_{PDC} LPDC? L P D C i n v \mathcal{L}_{PDC_{inv}} LPDCinv?? O S P D C O_{\mathcal{S}}^{PDC} OSPDC? O T P D C O_{\mathcal{T}}^{PDC} OTPDC?分别表示两个通道的label图,也就是PDC最后的输出,而 p ( . ) p(.) p(.)表示经过SOFTMAX。当你最小化 L P D C \mathcal{L}_{PDC} LPDC?时, p ( O S P D C ) p(O_{\mathcal{S}}^{PDC}) p(OSPDC?)是变大的, p ( O T P D C ) p(O_{\mathcal{T}}^{PDC}) p(OTPDC?)是变小的,故而判别器能够更好的识别source类。对称地,在优化 L P D C i n v \mathcal{L}_{PDC_{inv}} LPDCinv??时,判别器能够更好的识别target类,这样优化整体就能够训练好一个domain classifier,使得其能够区分pixel-level的特征属于哪个domain的特征。这个非常对称的损失函数可以理解为二分类交叉熵损失的变体,但是我没想明白为啥不直接用二分类交叉熵损失,或者用这个损失函数的意义在哪里?

训练的过程就是交替优化下面的式子:
请添加图片描述
先固定DS的参数,优化 L P D C \mathcal{L}_{PDC} LPDC?以获得PDC的参数,然后固定PDC,通过优化 L D S + L ^ P D C \mathcal{L}_{DS}+\mathcal{\hat{L}}_{PDC} LDS?+L^PDC?

2.4 目标级域适应

目标级域适应构建一个目标级域分类器(ODC),通过对抗学习,有助于更好地提取出domain-invariant特征。

ODC的输入是从Base-Net输出的特征图,可以看做是目标级特征,这个特征经过ROI-pooling的操作(其它论文的方法)获得比较准确的目标特征,然后通过几层网络最后输出一个向量,这个向量由2N个置信度组成,1-N表示source域,N+1-2N表示target域,比如其中第4个置信度(N>4)就表示这个目标是source域的第4类的概率。

优化ODC,很好理解,采用交叉熵损失,因为是两大类中细分了N小类,所以有两个交叉熵加到一起,如下:
请添加图片描述
接下来的操作我不太能理解,作者又提出了个inverse的损失:
请添加图片描述
这个的区别好像就是把两个大类交换了一下位置,比如原来1-N表示source域,现在N+1-2N表示source域。
把这两个合到一块,就有一个域混淆目标函数如下:
请添加图片描述
整体的学习过程如下:
请添加图片描述
如此看来,PDC和ODC引入的inverse损失都是在更新DS的参数才用到的,这是为了让DS能够更好地提取object-level和pixel-level的特征,而在训练PDC或ODC的参数时,并不使用inverse的损失。

一个小小的疑问:
L O D C \mathcal{L}_{ODC} LODC?是两个交叉熵损失的合体,优化它很显然能够训练好一个ODC。但是 L P D C \mathcal{L}_{PDC} LPDC?好像仅仅是关注其中一类?它能够训练好PDC吗。

3.总结

本文着眼场景分割,主要解决在合成数据上训练的模型在真实数据上测试的性能下降的问题。通过构建一个DS网络,提取不同域中的object-level和pixel-level的特征,通过ODC和PDC进行对抗训练,从而使得DS能够更好地提取出domain-invariant的特征。整个训练过程中,Target域的数据只用到了object-level的标签,通过不精确(inexact)监督学习实现了Target域上的比较好的分割结果。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-30 00:52:59  更:2022-09-30 00:56:35 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/28 3:00:21-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计