| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 通过图像修复的视觉提示 -> 正文阅读 |
|
[人工智能]通过图像修复的视觉提示 |
Visual Prompting via Image Inpainting目录 二、Visual Prompting via Image Inpainting 2.?Prompting Inpainting Models 3.?The Computer Vision Figures Dataset 总结
一、Introduction? ? ? ? 尽管深度学习模型的能力不断增长,但是它们在有标签的小数据集上训练时容易出现过拟合。自监督为这一问题提供了解决方案,然而,自监督通常需要通过微调有标签的数据集来适应给定的下游任务。这种微调可以避免吗?在NLP中,提示(prompt)最近作为一种无需任何额外训练就可在新任务中使用模型的方法。常见方法是在测试时向训练过的模型提供与目标任务的示例相对应的输入以及查询。这种测试时任务提示的想法可以推广到视觉领域吗?也就是说,我们能有一个单一的通用模型,可以执行广泛的用户指定的任务,而不需要任何微调吗?在本文中,作者在正确的数据上训练大规模图像修复模型,此模型就可以成为有效的视觉提示工具。 ????????如图1所示,作者通过构造一个新的类似网格的图像来定义每个任务,该图像包含任务的输入输出示例和一个查询(绿色边框)。输入-输出示例描述了任务,而图像查询定义了一个新的输入。然后,模型通过简单地对图像的其余部分(红色边框)进行内嵌来生成结果。与图像类比不同,作者并没有显式地定义A、A’和B图像,而是简单地将它们连接到一个带有洞的单一图像中。因此,视觉提示不是一个确切的类比,因为没有隐含的从左到右的顺序。 ?????????作者主要贡献总结如下:
二、Visual Prompting via Image Inpainting1. Inpainting using MAE-VQGAN????????如图2所示,与直接预测像素的MAE不同,MAE- VQGAN通过softmax层将概率分配给视觉token。在训练过程中,通过使用VQGAN编码器将图像映射到视觉token索引来获得真正的视觉token。利用交叉熵损失对模型进行训练。 2.?Prompting Inpainting Models????????定义一个函数g,它将示例集S和图像查询??映射到一个新图像和一个MASK上。
3.?The Computer Vision Figures Dataset????????由g产生的图像是构造的而非真实的。具体来说,将来自不同分布的图像拼接在一起,如真实图像和分割掩码。因此,在标准数据集(如ImageNet)上训练的模型可能难以处理这些网格状图像。为了缩小领域差距,我们收集了一个新的数据集。Figures数据集由88645张更接近于我们视觉提示结构的图像组成。 ? ? ? ?作者下载了Arxiv从2010年到2022年的所有开源论文,并选择了计算机视觉分区“cs.CV”,因为它们包含更接近网格结构的图像,如图3所示。为了去除不相关的源图像,作者手动标记了2000张图像,并训练二元图像分类器,为至少有一张自然图像的源图像分配高分。然后,作者对整个数据使用分类器,只保留信息最丰富的源图像,这些源图像来自23302篇不同的论文。作者随机划分了90%的数据进行训练,剩下的数据进行验证。 三、Experiments and Results????????表1中展示了定量结果,图4中展示了定性结果。结果表明,在Figures数据集上的训练提高了所有下游任务中大多数模型的结果。MAE-VQGAN在检测和分割方面的性能优于其他模型,生成的图像比MAE清晰得多。VQGAN很难输出准确的结果,可能是由于顺序解码。BEiT模型优于MAE模型,很可能是因为它的训练的样本效率较低。 ????????为了评估inpainting模型的合成预测能力,创建了3个简单的合成任务及其3个组合,并对每个任务的100个实例进行评估。?每个示例对是一个彩色形状的图像,和一个相应的引入变化的图像。变化可以是颜色、形状、大小,也可以是两种变化的结合。 ????????结果如表2所示,MAE-VQGAN预测实例见图5。如果没有对Figures数据集进行训练,图像修复模型就无法推广到这些以前未见的任务。当使用Figures数据集训练所有模型时,它们的性能都会提高。然而,同样的模型难以处理任务的组合。VQGAN模型利用顺序解码,因此缺乏上下文,这导致性能较差。MAE模型在颜色上优于MAE-VQGAN,而BEiT在尺寸上表现较差。这些模型依赖于预训练的代码(VQGAN和dVAE),这些代码可能原本就不适合这些任务。
? 四、Discussion????????尽管方法很简单,但在大量的视觉任务上执行得如此好?在这一点上,作者也没有给出一个好的答案。显然,作者构建的训练数据发挥了重要作用,但观察到的泛化量仍然令人惊讶。也许其中一些图像到图像的任务实际上比我们想象的要简单。作者希望他们的工作会鼓励进一步的研究,以更好地理解通过图像修复学习到的东西。 参考(具体细节见原文) |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 23:13:22- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |