| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Destruction and Construction Learning -> 正文阅读 |
|
[人工智能]Destruction and Construction Learning |
本文的主要工作是什么? 提出了一种“破坏与构造”学习方法,除了标准的分类主干网络之外,还引入了一个“破坏与构造”流,先“破坏”再“重建”图像,学习有区分度的区域和特征。 具体来说,“破坏”就是首先将输入图像划分为局部区域,然后通过区域混淆机制(RCM)对它们进行打乱。为了正确识别这些被破坏的图像,分类网络必须更多地关注有区分度的区域,以发现差异。为了补偿RCM引入的噪声,采用对抗性损失来抑制RCM引入的噪声模式,以区分原始图像和被破坏图像。 而“构建”就是,遵循区域对齐网络,试图恢复局部区域的原始空间布局,以建模局部区域之间的语义关联。通过联合训练和参数共享,DCL为分类网络注入了更具辨别力的局部细节。
“破坏”不总是有益的 RCM引入了几种嘈杂的视觉模式,可能会产生副作用,如图3所示。为了抵消负面影响,我们采用对抗性损失来区分原始图像和被破坏的图像。因此,噪声模式的影响可以最小化,只保留有益的局部细节。从概念上讲,对抗性损失和分类损失以对抗性的方式工作,以便从“破坏”中仔细学习。在“施工”中,引入了区域线形网络,以恢复与RCM相反的原始区域布置。通过学习恢复[19,6]中的原始布局,网络需要理解每个区域的语义,包括那些有区别的区域。通过“构建”,可以模拟不同地区之间的相关性。 图2.DCL方法的框架包括四个部分:(1)区域混淆机制(RCM):打乱输入图像的局部区域.(2)分类网络:主干分类网络,将图像分类到细粒度类别.(3)对抗学习网络:对抗学习损失用于区分原始图像和破坏过的图像.(4)区域对齐网络:放在分类网络后,用于恢复局部区域的空间布局 ?3.1 破坏学习对于细粒度图像识别,局部细节比全局结构重要得多。在大多数情况下,不同的细粒度类别通常具有相似的全局结构,只在某些局部细节上有所不同。在这项工作中,我们建议通过打乱局部区域来破坏全局结构,以便更好地识别区分区域和学习区分特征(第3.1.1节)。为了防止网络从破坏引入的噪声模式中学习,提出了一种对抗模式(第3.1.2节)来拒绝与细粒度分类无关的RCM诱导模式。 3.1.1 区域混淆机制? 如图3所示,我们提出的区域混淆机制(RCM)旨在破坏局部图像区域的空间布局。给定输入图像I,我们首先将图像均匀地划分为N×N个子区域,用 ? 然后,通过对数组
原始图像 ?由于图像的全局结构被破坏,为了识别这些随机混叠的图像,分类网络必须找到有区别的区域,并学习类别之间的细微差异。 图3.RCM区域混淆机制破坏图像的示例。? 3.1.2 对抗学习? 用RCM破坏图像并不总能为细粒度分类带来有益的信息。例如,在图3中,当我们打乱局部区域时,RCM还引入了噪声。从这些噪声视觉模式中学习到的特征对分类任务是有害的。为此,我们提出了另一种对抗性损失 ??将原始图像和被破坏图像视为两个域,对抗性损失和分类损失以对抗的方式工作:1)保持域不变模式,2)拒绝 ??我们将每个图像标记为一个one-hot向量 ?其中 理解? 为了更好地理解对抗性损失如何具有学习功能,我们进一步可视化了主干网ResNet-50在有和没有对抗性损失的情况下的功能。给定输入图像 ??因此,ground truth标签c的最后一个卷积层中的第k个滤波器的响应可以通过 ??我们在如图4所示的散点图中比较了原始图像及其破坏版本的不同滤波器的响应,其中每个具有正响应的滤波器被映射到散点图中的数据点 ??我们还根据Lcls+Ladv训练的主干网的散点图上的点的颜色,根据
? 图中的要点可分为三部分。D:倾向于响应噪声模式的过滤器(RCM诱导的图像特征);F:倾向于响应全局上下文描述(原始图像特定图像特征)的过滤器;E:绝大多数过滤器都与 ?? 图4:分别使用Lcls和Lcls+Ladv学习的滤波器的可视化。第一行显示原始图像I及其被破坏的版本 ?3.2 构造学习??考虑到图像中相关区域的组合构成了复杂多样的视觉模式,我们提出了另一种学习方法来建模局部区域之间的相关性。具体地说,我们提出了一种具有区域构造损失 ? ?给定图像
区域构造损失有助于定位图像中的主要目标,并有助于找到子区域之间的相关性。通过端到端的训练,区域构造损失可以帮助分类主干网络建立对对象的深刻理解,并对对象的形状、对象各部分之间的语义关联等结构信息进行建模。 3.3 破坏和构造学习在我们的框架中,分类、对抗和区域对齐损失以端到端的方式进行训练,网络可以利用增强的局部细节和良好建模的对象部分相关性进行细粒度识别。具体而言,我们希望尽量减少以下目标:
源码
? 实验部分CUB-200-2011(CUB)、斯坦福汽车(CAR)和FGVC-Aircraft(AIR) 主干网络:? 在两个广泛使用的主干网络上评估了提出的方法:ResNet-50和VGG-16。这两个网络是在ImageNet数据集上预训练的。图像的类别标签是用于训练的唯一注释。将输入图像的大小调整为512×512的固定大小,并随机裁剪为448×448。随机旋转和随机水平翻转用于数据扩充。以上所有设置都是文献中的标准设置。 ? 为了识别VGG-16上的高分辨率图像而无需子采样,将VGG-16中前两个完全连接的层分别转换为两个卷积层。在本文的所有实验中,主干网最后一个卷积层的特征映射被馈送到区域对齐网络中,最后一个卷积层的平均池化输出形成的特征向量被馈送到对抗性学习网络中。 ? ?RCM中区域N的数量基于主干网络和输入图像的大小。该区域的宽度w和长度h应可被最后一个卷积层的步长整除,对于VGG-16和ResNet-50,该步长为32。同时,为了保证区域对齐的可行性,输入图像的宽度和高度也应该可以被N整除。在本文中,RCM的分割数N的默认值设置为7,没有特别提及。第4.4节讨论了选择N的影响。实验中的所有模型都经过180个epoch的训练,每60个epoch学习率下降10倍。在测试时,RCM被禁用,用于对抗性损失和区域构建的网络结构被移除。输入图像经过中心裁剪,然后送入主干分类网络进行最终预测。 ? 效果对比? 我们设置α=β=1。对于像CUB-2011这样的非刚性物体识别任务,不同区域之间的相关性对于建立对物体的深入理解非常重要。因此我们设置γ=1。而对于像斯坦福汽车和FGVC飞机这样的刚性物体识别任务,物体的某些部分具有辨别性和互补性。因此,物体和部件的位置可能会起到重要作用[34]。我们将刚性物体识别任务的γ设置为0.01,以强调破坏性学习在从辨别区域学习细节视觉表征中的作用。与鸟类和汽车等其他细粒度类别不同,飞机的结构会随着其设计发生显著变化[18]。例如,机翼、底盘系统、每个底盘系统的车轮、发动机等的数量各不相同。因此,为了在一定程度上保留结构信息,我们将表1中FGVC-Aircraft上的DCL设置为2。表1和表2显示,我们的ResNet-50基线已经非常有竞争力。幸运的是,我们提出的DCL在所有三项任务上仍能以较大幅度(例如,平均2.3%的绝对改善)超越baseline。 ? ? ? ? ? ? ? ? ? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年3日历 | -2025/3/11 15:33:52- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |