| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> UNIMO-2: 端到端的统一视觉语言全面学习 -> 正文阅读 |
|
[人工智能]UNIMO-2: 端到端的统一视觉语言全面学习 |
UNIMO-2: End-to-End Unified Vision-Language Grounded Learning目录 1.Vision-Language Pre-training 1.End-to-End Grounded Learning 2.Pre-training On Different Corpus 3.Transferring To Different Tasks Effectiveness of Grounded Learning Effectiveness of Unaligned Images and Texts 总结
一、Introduction????????大规模预训练由于其强大的泛化能力和对大规模数据的高效利用,受到了CV、NLP和MM等领域的广泛关注。然而,关于视觉、语言和视觉-语言表征学习的研究多是在不同的训练数据源下分别进行的。 ????????现有的VLP方法需要大量对齐的图像-文本对,收集成本高,难以扩展。CV中大量的图像数据集和NLP中的文本语料库无法得到有效利用。因此,现有VLP方法的规模和性能上限受到很大限制。由于只学习图像-文本对上的联合视觉-语言表示,模型很难有效适应视觉和文本任务。 ????????为了解决这些局限性,作者提出了UNIMO-2,用于对各种类型的数据(包括图像、文本和图像-文本对)进行联合学习。将大量未对齐的图像和文本组合在一起,不仅有望提高视觉-语言任务的性能,还有望提高适应单模态视觉和文本任务的规模。然而,如何将未对齐的图像和文本连接起来,并有效地对齐视觉和文本语义空间是一项挑战。在本文中,作者提出通过共享统一空间对图像、文本和图像-文本对进行grounded learning。 ????????作者主要贡献总结如下:
二、Related Work1.Vision-Language Pre-training????????对VLP不熟悉的可以看我的( VL综述:视觉-语言智能:任务、表征学习、大模型) ????????现有的主流VLP模型大多采用两个阶段训练,首先使用预训练的目标检测模型提取区域视觉特征,然后联合图像和文本的object-centric区域特征作为Transformer 的输入进行跨模态预训练。这些方法严重依赖现成的目标检测模型,如Faster R-CNN。由于视觉表示没有优化到更通用的跨模态理解,并且使用目标检测模型提取区域特征非常耗时,它们面临着视觉表达能力有限和计算效率低的问题,这使得它们的可扩展性较差。 ????????最近的一些工作也探索了没有目标检测模块的VLP。这些工作要么利用预训练CNNs的网格特征,要么利用ViT的patch特征,但它们只使用有限的图像-文本对进行跨模态预训练,因此它们的可伸缩性和性能受到限制。只有少数工作利用未对齐的图像和文本进行视觉语言预训练,包括作者之前的工作UNIMO和U-VisualBERT。然而,它们都是通过耗时的目标检测进行区域视觉特征或目标标签的预提取。 2.Grounded Learning????????Language grounding领域旨在用视觉信息丰富文本表示,它已被证明可以提高各种NLP任务的性能。Kiela等人(2018)通过训练句子编码器预测给定标题的图像特征来研究句子表示。Tan和Bansal(2020)提出了一种将语言符号映射到相关图像的语音化方法。这些工作都通过学习文本到对应图像的投影,用视觉信息丰富了语言表示。最近,Huang等人(2021)提出了一种端到端VLP方法,该方法将CNN编码器中的视觉特征聚类为带有视觉字典的视觉标记。这些工作都依赖于图像-文本对来学习跨模态表示,只关注视觉-语言联合任务。 三、Approach????????模型的整体架构如图1所示。UNIMO-2是一个端到端框架,由一个基于Transformer的视觉编码器、一个基于Transformer的文本编码器、一个grounded dictionary(GD)和一个用于模态融合的多层Grounded Transformer组成。视觉编码器通过将图像分割成小尺寸的patch将其作为输入,并为所有patch生成高级视觉表示,类似于ViT。文本编码器对文本token进行编码,以产生高级token表示。基于patch和token的高级表示,设计了一个GD embedding模块,将相似的视觉-语言表示分组到grounded tokens中。进一步采用Grounded Transformer,通过与grounded tokens的交互,融合视觉和语言特征。 ????????UNIMO-2利用MLM、ITM、VCL进行端到端预训练。 1.End-to-End Grounded Learning? ? ? ? 作者提出学习一个共享的语义空间(图像和文本之间的grounded space),以便更好地对齐细粒度的视觉和文本语义。具体地说,基于patch V的视觉表示和token T的文本表示,作者引入一个GD,将相似的视觉和文本表示分组到相同的grounded tokens中。grounded 特性不仅有助于对齐对齐的图像-文本中的视觉语义和文本语义,而且还充当“锚点”,帮助在未对齐的图像和文本之间架起桥梁,如图1所示。 Grounded Dictionary Learning? ? ? ? GD定义为矩阵?(?C embedding vectors with D-dim),grounded token embedding 向量表示的是?。 ????????现有的VLP方法大多隐含地假设图像-文本对的视觉和文本之间存在一一对应的假设。然而,这一假设在现实中并不成立,因为大多数网络上的图片-文本对都是有噪声的或只有弱相关性。为了解决这个问题,作者不将每个patch或token表示映射到一个grounded token,而是只检测图像和文本之间最重要的共享语义。为文本和视觉输入找到 top-K 个最重要的grounded tokens。设??为视觉token???与grounded token ?embedding向量的相似度,计算公式为 ????????对于图像-文本对,grounded token??的累积分数计算为?,?累积分数最大的 top-K grounded token??。 ????????对GD进行随机初始化,并在训练前对其进行端到端更新。由于??函数不可微,作者引入一个grounding损失来帮助学习GD。具体而言,提出了向量量化(VQ)算法的修订版,该算法使用??误差将embedding向量??映射到patch或token表示。因此,总的grounding损失为: Grounded Transformer????????在获得grounded token之后,将它们与可视觉token和文本token一起作为输入到grounded Transformer,以进行跨模态融合。作者通过grounded token来连接视觉和文本表示。如图2所示,跨模态信息只能通过grounded token交换,这也推动grounded token捕捉图像和文本之间最重要的共享语义。这样,模型通过公共grounded token进行跨模态交互,在弱相关的图像-文本对上更加健壮。对于未配对的图像和文本,grounded Transformer还对视觉token或文本token与grounded token的融合进行建模。由于GD捕获常见的视觉和文本语义,它还有助于学习未配对图像和文本的跨模态表示。 2.Pre-training On Different Corpus????????基于grounded Transformer的输出,作者采用掩码语言模型(MLM)和图像-文本匹配(ITM)的图像-文本对预训练任务。作者还将MLM应用于文本语料库,将视觉对比学习(VCL)应用于图像。
3.Transferring To Different Tasks????????UNIMO-2可以有效地调整不同类型的任务,包括跨模态任务、视觉任务和文本任务。对于跨模态任务,模型架构与图像-文本对的预训练架构相同,如图1左侧所示。基于视觉和文本表示生成grounded token,以促进跨模态理解和生成。对于视觉任务,模型架构与图像上的预训练架构相同,如图1中间部分所示。grounded token是基于来自视觉Transformer的视觉token获得的。对于文本任务,模型架构与文本的预训练结构相同,如图1的右侧所示。grounded token是基于来自文本Transformer的文本token获得的。 四、Experimental Settings
五、Results and Analysis1.Cross-Modal Tasks????????评价结果如表1所示。作者比较了现有的大多数VLP模型,包括基于区域特征的模型(ViLBERT、UNITER、Oscar、Villa、UNIMO),以及端到端模型(ViLT、E2E-VLP、SOHO、CLIP)。结果表明,与大多数基准相比,UNIMO-2取得了最好的结果。特别是,UNIMO-2在zero-shot图像/文本检索任务中取得了非常好的性能,甚至优于在更大的语料库上预训练的CLIP。结果表明,基于不同类型语料库的端到端grounded学习,UNIMO-2能够获得更好的跨模态表示。此外,在UNIMO-2中删除grounded embedding,在所有任务中的性能都明显下降,这证明了grounded学习在跨模态对齐方面的有效性。 2.Visual Tasks????????由于UNIMO-2学习了有效的跨模态表示,它可以对图像进行分类而无需微调。具体来说,可以将图像的目标标签转换为伪图像描述,如“一张[label]的照片”。然后,可以使用zero-shot图像到文本检索方法获取每张图像的标签,类似于CLIP。?将zero-shot和微调性能与几种最先进的表示学习方法进行比较。表2中的结果表明,UNIMO-2在zer-shot和监督设置下,都可以实现与在数十亿图像-文本对上预训练的CLIP相当的性能。 3.Textual Tasks????????为了展示UNIMO-2在文本任务上的有效性,进一步比较了包括UNITER、VilBERT和UNIMO在内的VLP模型,以及包括BERT、RoBERTa和UniLM在内的预训练语言模型。表3的对比结果表明,UNIMO-2的性能比他们都好。 4.AnalysisEffectiveness of Grounded Learning? ? ? ? 作者通过消融实验进一步验证了grounded learning的有效性。“w/o GD (P)”表示在预训练和推理过程中去除grounded learning,以验证其在不同类型语料库上统一学习的有效性。“w/o GD (I)”表示在预训练期间保留grounded learning,但在推理期间删除它,以验证grounded learning对下游任务的有效性。“1-to-1 Map”表示通过在GD中找到其最近的邻居,将每个patch或token映射到grounded token。 ????????作者比较了他们在三种任务中的表现,如表4的上半部分所示。结果表明,GD是实现不同类型语料库的端到端联合学习的必要方法,它可以帮助连接未对齐的图像和文本,提高视觉语言的语义对齐。学习到的grounded token对于跨模态和单模态下游任务也很关键。我们进一步验证了我们的grounded Transformer的有效性,将其替换为传统Transformer,称为“w/o G.T.”。结果表明,与UNIMO-2相比,跨模态任务的性能明显下降,这证明了grounded Transformer的有效性。 Effectiveness of Unaligned Images and Texts????????为了进一步验证未对齐图像和文本在跨模态学习中的有效性,作者比较了UNIMO-2在不同预训练数据集上的性能。具体地说,通过删除文本库(即“w/o Text”)和图像库(即“w/o Images”)或同时删除它们(即“w/o Both”)来比较UNIMO-2的性能。对比结果如表4底部所示,结果表明,无论是删除文本语料库还是图像语料库,都会持续降低所有三种类型任务的性能。值得注意的是,无论是删除纯文本语料库还是纯图像语料库,图像/文本检索任务的性能都明显下降,这表明不对齐语料库对跨模态任务也很有用。 六、Conclusion????????作者提出了UNIMO-2,一个端到端统一模态的预训练框架,可以从对齐和非对齐的图像和文本语料库中学习。作者提出的grounded learning可以帮助连接未配对的图像和文本,更有效地对齐文本和视觉语义空间。得益于有效利用不同类型的语料库,UNIMO-2对不同类型的任务具有更好的可扩展性。实验表明,UNIMO-2大大提高了各种跨模态任务的性能,在视觉和文本任务方面也取得了令人印象深刻的成绩。结果还表明,利用更大规模的未配对图像和文本,有望进一步统一提高跨模态、视觉和文本任务的性能。 参考(具体细节见原文)原文链接:https://doi.org/10.48550/arXiv.2203.09067https://doi.org/10.48550/arXiv.2203.09067 代码链接: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 20:17:33- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |