IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 通过图像修复的视觉提示 -> 正文阅读

[人工智能]通过图像修复的视觉提示

Visual Prompting via Image Inpainting


目录

总结

一、Introduction

二、Visual Prompting via Image Inpainting

1. Inpainting using MAE-VQGAN

2.?Prompting Inpainting Models

3.?The Computer Vision Figures Dataset

三、Experiments and Results

四、Discussion

参考(具体细节见原文)


总结

????????在不进行特定的任务微调或任何模型修改的情况下,如何使预训练好的视觉模型适应新的下游任务?受NLP中的提示启发,本文研究了视觉提示:给定测试时新任务的输入-输出图像示例和一个新的输入图像,目的是自动生成与给定示例一致的输出图像。作者将这个问题作为简单的图像修复(实际上就是在一个串联的视觉提示图像上填上一个洞)。在一个新的数据集上训练MAE(来自Arxiv学术论文的8800个未标记的数字)。将视觉提示应用于这些预训练的模型,并在各种下游的图像到图像的任务(前景分割、单一目标检测、着色、边缘检测)中展示了结果。


一、Introduction

? ? ? ? 尽管深度学习模型的能力不断增长,但是它们在有标签的小数据集上训练时容易出现过拟合。自监督为这一问题提供了解决方案,然而,自监督通常需要通过微调有标签的数据集来适应给定的下游任务。这种微调可以避免吗?在NLP中,提示(prompt)最近作为一种无需任何额外训练就可在新任务中使用模型的方法。常见方法是在测试时向训练过的模型提供与目标任务的示例相对应的输入以及查询。这种测试时任务提示的想法可以推广到视觉领域吗?也就是说,我们能有一个单一的通用模型,可以执行广泛的用户指定的任务,而不需要任何微调吗?在本文中,作者在正确的数据上训练大规模图像修复模型,此模型就可以成为有效的视觉提示工具。

????????如图1所示,作者通过构造一个新的类似网格的图像来定义每个任务,该图像包含任务的输入输出示例和一个查询(绿色边框)。输入-输出示例描述了任务,而图像查询定义了一个新的输入。然后,模型通过简单地对图像的其余部分(红色边框)进行内嵌来生成结果。与图像类比不同,作者并没有显式地定义A、A’和B图像,而是简单地将它们连接到一个带有洞的单一图像中。因此,视觉提示不是一个确切的类比,因为没有隐含的从左到右的顺序。

?????????作者主要贡献总结如下:

  1. 为视觉提示提供一个简单而强大的通用方法。给出了几个任务输入、输出和查询图像的例子,说明了各种CV任务可以被视为图像修复问题。
  2. 提供了一个新的数据集,允许模型学习这样的网格结构,而不需要任何标记、任务描述或任何关于网格结构的附加信息。
  3. 虽然使用新数据集进行训练是必要的,但从其他来源添加更多的通用图像数据(如ImageNet)会进一步改善了结果。

二、Visual Prompting via Image Inpainting

1. Inpainting using MAE-VQGAN

????????如图2所示,与直接预测像素的MAE不同,MAE- VQGAN通过softmax层将概率分配给视觉token。在训练过程中,通过使用VQGAN编码器将图像映射到视觉token索引来获得真正的视觉token。利用交叉熵损失对模型进行训练。

2.?Prompting Inpainting Models

????????定义一个函数g,它将示例集S和图像查询?x_q?映射到一个新图像和一个MASK上。

  • Visual Prompt Engineering:为了使视觉提示工作,g应该输出一个好的视觉提示,由示例S和图像查询?x_q?组成。因此,g必须确定在何处以及如何将输入嵌入到视觉提示图像中。在大多数情况下,g通过创建一个(n + 1) × 2单元格的图像网格,将示例和图像查询水平堆叠,其中第i个示例放置在第i行,而图像查询位于最后一行。
  • Visual Prompt Ensembling:受到NLP的启发,提示整合:构建多个不同的提示,分别对每个提示应用嵌入模型f,以获得一组预测。最后的预测可以通过多数投票或加权平均来确定。为了简单起见,这里我们使用一个简单平均数。

3.?The Computer Vision Figures Dataset

????????由g产生的图像是构造的而非真实的。具体来说,将来自不同分布的图像拼接在一起,如真实图像和分割掩码。因此,在标准数据集(如ImageNet)上训练的模型可能难以处理这些网格状图像。为了缩小领域差距,我们收集了一个新的数据集。Figures数据集由88645张更接近于我们视觉提示结构的图像组成。

? ? ? ?作者下载了Arxiv从2010年到2022年的所有开源论文,并选择了计算机视觉分区“cs.CV”,因为它们包含更接近网格结构的图像,如图3所示。为了去除不相关的源图像,作者手动标记了2000张图像,并训练二元图像分类器,为至少有一张自然图像的源图像分配高分。然后,作者对整个数据使用分类器,只保留信息最丰富的源图像,这些源图像来自23302篇不同的论文。作者随机划分了90%的数据进行训练,剩下的数据进行验证。

三、Experiments and Results

????????表1中展示了定量结果,图4中展示了定性结果。结果表明,在Figures数据集上的训练提高了所有下游任务中大多数模型的结果。MAE-VQGAN在检测和分割方面的性能优于其他模型,生成的图像比MAE清晰得多。VQGAN很难输出准确的结果,可能是由于顺序解码。BEiT模型优于MAE模型,很可能是因为它的训练的样本效率较低。

????????为了评估inpainting模型的合成预测能力,创建了3个简单的合成任务及其3个组合,并对每个任务的100个实例进行评估。?每个示例对是一个彩色形状的图像,和一个相应的引入变化的图像。变化可以是颜色、形状、大小,也可以是两种变化的结合。

????????结果如表2所示,MAE-VQGAN预测实例见图5。如果没有对Figures数据集进行训练,图像修复模型就无法推广到这些以前未见的任务。当使用Figures数据集训练所有模型时,它们的性能都会提高。然而,同样的模型难以处理任务的组合。VQGAN模型利用顺序解码,因此缺乏上下文,这导致性能较差。MAE模型在颜色上优于MAE-VQGAN,而BEiT在尺寸上表现较差。这些模型依赖于预训练的代码(VQGAN和dVAE),这些代码可能原本就不适合这些任务。

  • Resize每个示例对都包含一个圆的图像,以及一个较小圆的对应图像。给定一个图像查询,目标是预测Resize图像。
  • Shape:在这里,每个示例对都是一个带圆的图像,和一个对应的带矩形的图像。两者大小相似,出现在相同的位置。给定一个新的图像查询,目标是预测带矩形的图像。
  • Color:每个示例对都包含一个出现在同一位置的圆的图像,其颜色从绿色变为蓝色。给定一个新的图像查询,目标是预测对应的带有蓝色圆圈的图像。

?

四、Discussion

????????尽管方法很简单,但在大量的视觉任务上执行得如此好?在这一点上,作者也没有给出一个好的答案。显然,作者构建的训练数据发挥了重要作用,但观察到的泛化量仍然令人惊讶。也许其中一些图像到图像的任务实际上比我们想象的要简单。作者希望他们的工作会鼓励进一步的研究,以更好地理解通过图像修复学习到的东西。


参考(具体细节见原文)

原文链接:https://doi.org/10.48550/arXiv.2209.00647

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-24 20:57:15  更:2022-09-24 20:59:44 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 23:13:22-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码