IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> lxmert:learning cross-modality encoder representations from transformers -> 正文阅读

[人工智能]lxmert:learning cross-modality encoder representations from transformers

LXMERT: Learning Cross-Modality Encoder Representations from Transformers 论文笔记_小有名气的可爱鬼的博客-CSDN博客视觉 - 语言推理需要对视觉概念、语言语义有一定的理解,尤其还需要能在这两个模态之间进行对齐、找到关系。作者们提出了 LXMERT 框架来学习这些语言和视觉的联系,它含有三个编码器:一个对象关系编码器、一个语言编码器和一个跨模态编码器。为了让模型具备联系视觉和语言语义的能力,使用了 5 个不同的有代表性的预训练任务:(1)掩码交叉模态语言建模;(2)通过ROI特征回归进行掩码目标预测;(3)通过检测到的标签分类进行掩蔽目标预测;(4)交叉模态匹配;(5)图像问题解答。这些多模态预训练既可以帮助学习同一个https://blog.csdn.net/weixin_42305378/article/details/104336844? ? ? ? 看完文章,感觉和bert是一个思路的,只不过加了视觉模态,是一个多任务的跨模态的特征标识学习,和bert是同一类型,但是模态多了,和当下主流最火的对比学习还是不同,这样看来,对比学习的模式确实更加简单有效了。多模态的任务,预训练是核心,怎么训起来包括模型学到了足够的先验,能够迁移到下游任务,模态的对齐。

1.introduction

????????视觉语言推理需要理解视觉内容语义以及跨模态对齐和关系。注意不同模态之间的对齐还是挺难的,尽管有不少单模态的工作,但对视觉和语言模态的大规模预训练拟合微调研究很少,就类似与bert这种在视觉语言推理上的应用还是很少。

? ? ? ? lxmert由三个部分组成,an object relationshaip encoder,a language encoder,a cross-modality encoder。为了更好的学习视觉和语言之间的跨模态对齐,用了5个不同的代表性任务来预训练模型。1.masked cross-modality language modeling,掩码跨模态语言建模,2.masked object prediction via Roi-feature regression.通过Roi特征回归掩码对象建模,3.masked object prediction via detected-label classification. 通过检测到的标签分类进行掩码目标预测,4.cross-modality matching.跨模态匹配,5.image question answering.图像问题解答。与单模型预训练(例如,单模型中的bert)不同,这种多模态预训练允许我们的模型从相同模态中的可见元素或从其他模态中的对齐组件中推断掩码条件,通过这种方式,有助于建立模态内和跨模态的关系。这块其实很重要,文本模态和图像模态的对齐是比较难的事情,如果是单模态没有对齐这一步。

2.model architecture

具有注意力和交叉注意力的跨模态模型,需要两个输入,图像及其相关句子,每个图像都表示为对象序列,其实是图像块和坐标的组合,每个句子表示为一个单词序列,通过设计和组合这些自注意力和交叉注意力层,模型能够从输入生成语言表示,图像表示和跨模态表示。

2.1 Input embedding

? ? ? ? ?lxmert中输入嵌入层将输入转换为两个特征序列。

?2.2 encoders

single-modality encoders.如上图所示,左侧首先是一个embedding层对输入特征进行编码,图像是目标对象和坐标,文字是单词和位置的embedding,然后分别进入单模态的转换编码器,即语言编码器和对象关系编码器,它们中的每一个都只关注一种模态,与仅将转换器编码器应用于语言输入的 BERT(Devlin 等人,2019)不同,我们也将其应用于视觉输入(以及下文所述的跨模态输入)。 单模态编码器中的每一层(图 1 中的左侧虚线块)都包含一个自注意('Self')子层和一个前馈('FF')子层,其中前馈子层 进一步由两个全连接的子层组成。 我们分别在语言编码器和对象关系编码器中采用 NL 和 NR 层。

cross-modality encoders.如右侧所示,图像和文本的特征有一个交叉,下面的公式就不用关注了,看完生成模型的公式,觉得在判别模型中很多论文都是实验派论文,其实公式就是摆摆样子,没有什么深度的,但话说回来,如果都是像生成模型那样的理论推断,行业门槛确实就上去了。

?2.3 output representations

xlmert有三个输出,分别是语言,视觉和跨模态的三个输出。语言和视觉输出特征序列由交叉模态编码器产生的;对于跨模态输出,我们附加了一个特殊的标记[CLS](在上图的底部分支中表示为顶部黄色块)在句子词之前,并且该特殊标记在语言特征序列中的对应特征向量为用作交叉模式输出。

3.pre-training strategies

这里是核心。

3.1 language task: masked cross-modality lm

? ? ? ? 与bert几乎相同,以0.15的概率随机屏蔽单词并且要求模型预测这些被屏蔽的单词,当然xlmert不同于bert的是,除了从语言模态中预测,也可以在视觉模态中预测掩码词,从而解决歧义。例如图2中被屏蔽的单词carrot,如果考虑视觉信息单词就很清楚了,因此,这有助于建立从视觉到语言模态的练习,这种角掩蔽跨模态LM。本质上就是因为本身是跨模态训练,输入的信息本身也比bert多,bert只有文本信息,这里的输入除了文本还有图像。

3.2 vision task:masked object prediction

? ? ? ? 我们通过以0.15概率随机屏蔽对象,即用0屏蔽Roi特征,上图中变暗的那部分就是直接被填充了,要求模型去预测这些被屏蔽对象的属性。其实这里和mae已经比较接近了,mae也是屏蔽掉图像中部分patch,然后模型预测重建,只不过mae是单模态的。与语言模型类似,改模型可以从可见对象或语言模态推断掩码对象。从视觉方面推断对象有助于学习对象关系,从语言方面推断有助于学习跨模态对齐。因此,执行两个子任务,1.roi-feature regression.用l2损失回归对象ROI特征,2.detected-label classification.交叉熵损失学习掩码的标签。虽然大多数预训练掩码对象都有对象级的注释,就是类似目标检测级别的注释,对象和label,处于这些原因,我们采用fasterrcnn输出的预测标签,尽管这些标签有噪声,但是有助于预训练。

3.3 cross-modality task

图2中的预训练是5个任务,图像有两个,文本有一个,跨模态有两个

cross-modality matching.对于每个句子,我们以0.5的概率将其替换。然后训练一个分类器来预测图像和句子是否匹配,在bert中也有一个预训练任务是预测下一个是不是本句子的下一个句子。

image question answering 为了扩大训练前的数据集,预训练数据中大约1/3句子是关于图像的问题,当图像和句子匹配时,我们要求预测这些图像相关的问题的答案,这种qa预训练能够更好的学习跨模态表示。

总结:看完之后,我发现单模态的bert和mae,其实在训练上还是比较简单的,尤其是mae的训练,大模型这种跨模态的大模型的,模态的对齐很重要,模态的对齐其实就通过预训练任务的设计去完成的,因此预训练任务的设计很有意义。而现在简单的预训练任务就能完成很好的效果的模式要更值得去探索,要看看是否有内在的模式被挖掘出来,也就是信息或者特征的本质的高效的学习。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-06-25 18:06:59  更:2022-06-25 18:08:52 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 2:23:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码