IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 2020REXUP: I REason I EXtract I UPdate with Structured Compositional Reasoning for VQA -> 正文阅读

[人工智能]2020REXUP: I REason I EXtract I UPdate with Structured Compositional Reasoning for VQA

视觉问答的推理、提取、更新结构化的组合推理

原文

代码

摘要

? ? ? ? 视觉问答不仅需要图像和问题的语义理解,还需要对一步步推理的感知,才能得到正确答案。目前为止,成功的VQA大多尝试关注一个方面,要么关注视觉像素特征和词特征的相互作用,要么关注回答关于图像的问题的推理步骤。本文提出一个具有明确视觉结构化的文本信息的深度推理VQA模型(REXUP-REason、EXtract和UPdate),它在捕捉一步步的推理过程和检测逼真图像中复杂的对象关系方面表现良好。REXUP包含两个分支,面向图像对象和面向场景图,与超对角融合合成的注意力网络联合工作。我们在GQA数据集上评估REXUP,并进行消融研究以探索在REXUPs有效性背后的原因。我们最好的模型显著优于以前的最先进的模型,它在验证集上实现92.7%的性能,在测试开发集上73.1%。

一、介绍

? ? ? ? 过去工作提出的VQA模型关注分析逼真图像上的对象,但是只适用于简单的目标检测和yes/no问题上,为提高推理能力,提出有着组合问题和合成图像的Clever数据集。在Clever数据集上最先进模型是合成注意力网络CAN[11],生成针对图像和问题词的推理步骤,然而,Clever数据集是专门为评估VQA模型推理能力而设计的,图像中的目标只有三种不同形状和四种空间关系,导致图像式样简单,因此高准确率也很难证明有较高的目标检测和分析能力,也不能证明VQA模型的显著推理能力。

? ? ? ? 为战胜VQA和Clever的限制,提出GQA数据集,GQA数据集[12]包括超过1.7K不同对象和300种关系的真实图像。GQA为开放式问题提供不同类型的答案,以防止模型记忆答案模式,并检查答案预测的图像和问题理解。

? ? ? ? 在Clever和VQA数据集中的先进模型在GQA数据集中有着很大的性能下降,因为视觉特征和问题特征的交互并不能反映图像中对象的潜在结构化关系,因此提出REXUP网络,捕捉一步步的推理过程和利用场景图特征检测复杂的对象关系。

? ? ? ? REXUP网络包含两个平行分支,其中图像对象特征和场景图特征分别由迭代的问题引导,以REXUP单元格构建一系列推理步骤,在对象特征和问题嵌入间还引入了超对角融合。处理场景图特征的分支捕获对象的潜在结构化关系,集成到另一个分支特征处理,以进行最终答案预测。模型在GQA数据集上评估,在训练期间使用官方GQA场景图注释。为编码场景图特征,我们从场景图中提取文本信息,并且使用Glove嵌入编码提取的文本词,以捕获场景图中包含的语义信息。实验中,REXUP网络在深度推理问答任务上使用复杂的逼真图像在GQA数据集上实现了最先进性能。

二、相关工作和贡献

VQA的融合

? ? ? ? 多模态融合有简单连接和求和,如将问题和对象特征连接,并将联合向量送入双向GRU。然而,双线性融合方法更有效且参数更少,如基于[3]提出的张量分解,[4]提出一种双线性融合中投影张量的块分解,[5]将这种融合应用到他们提出的MuRel网络。

基于注意力的组合VQA

? ? ? ? 注意力机制也可应用到VQA中融合多模态特征,注意力机制包括软注意力机制(使用softmax生成对象区域和问题词的注意权重),自注意力机制(在每个模态的特征上应用点积),和协同注意力机制(使用语言特征引导视觉特征的注意,反之亦然)。

VQA的图表示

? ? ? ??[19]提出了一个特定问题的基于图的模型,如果对象在给定的问题中隐含了它们的关系,它们就会被识别并相互连接。[21]集成了场景图和功能程序为可解释的推理步骤。[8]声称只有部分图像场景图对答案预测有效,并提出了一种选择系统来选择场景图中最重要的路径,并使用最有可能的目标节点特征来预测答案。然而,这些工作并没有应用到GQA中。

REXUP的贡献

? ? ? ? 我们移除了经典的注意力和传统的融合网络,相反,我们专注于在视觉和语言分析中和复杂对象关系检测中提出一个更深层次推理解决方案。我们提出了一种新的深度推理VQA模型,该模型通过处理图像对象特征和场景图特征,并集成超对角融合合成注意网络,可以很好地处理复杂图像。

三、方法

? ? ? ? REXUP网络包含两个平行分支,面向对象的分支和面向场景图的分支,如图1a,每个分支包含一系列REXUP单元,每个单元操作一个推理步骤,如图1b,每个REXUP细胞包含一个推理,一个提取和更新门。推理步骤中,推理门确定问题中最重要的词,并生成一个当前推理状态,对每个词都有分布的注意力权重。这种推理状态被送入提取门,以捕获知识库中的重要对象,检索包含分布式注意力权重的信息。更新门从提取门获取推理状态和信息,生成当前记忆状态。

?3.1 输入表示

? ? ? ? 两个分支都用问题和知识库作为输入,面向图像对象的知识库OKB和面向场景图的知识库SGKB。对于一个具有最大U个单词的问题q∈Q,上下文单词通过预先训练的300dGlove嵌入进行编码,并传递到双向LSTM中,生成一系列d维度的隐藏状态qw1…表示问题上下文单词。这个问题是由最后一个前后隐藏状态←qw1和→qwU的连接来编码的。

? ? ? ? 对象特征从预训练的Fast-RCNN模型中提取,每个图像最多包含由2048维的对象特征表示的100个区域。对于图像中的每一个对象,线性变换将具有相应坐标的对象特征转换为一个512维对象区域嵌入。

? ? ? ? SGKB是场景图对象的矩阵,每个场景图对象在与它们相应的属性和关系特征连接后都在900维中。为编码场景图对象特征,所有对象名称、属性和关系都被初始化为300维Glove嵌入,对于对象属性,取这些属性特征A的平均值,对于每个对象关系,首先平均化每个关系特征和它链接的对象特征,然后平均化关系-对象特征,使得对象on有最终的关系特征。我们将对象特征、属性特征和关系特征连接为一个场景图的对象特征SGo、r。

3.2 REXUP细胞

? ? ? ? 每个分支包含一系列REXUP细胞,每个细胞运行答案预测的一个推理步骤。

推理门

? ? ? ? 推理门的输入是问题特征q、问题词序列qw1、qw2、...,qwU和之前的推理状态ri-1。传递到推理门之前,每个问题q通过线性变换来编码现有细胞d维度的问题嵌入qi,在连接qi和之前的推理状态ri-1之后进行线性变换。

? ? ? ? 然后rqi于每个问题词qwu进行元素乘法,以将之前推理步骤转移到每个问题词,对结果进行线性变换处理,生成一系列新问题词表示rai,u,包含之前推理状态中获得的信息。然后应用softmax获得在问题词上注意力分数的分布。

?将每个rvi,u和问题词相乘汇总在一起,生成当前推理状态ri,表示在当前推理步骤中一个问题的参与信息。

提取门

? ? ? ? 输入是当权推理状态ri、之前记忆状态mi-1和知识库特征。对于OKB分支,知识库特征是对象区域特征OBo,而对于SGKB分支,知识库特征是场景图特征SGo,r,对于知识库中的每个对象,我们首先将其特征表示与先前的记忆状态相乘,以将之前推理步骤的记忆信息集成在当前推理步骤的知识库中,其结果与输入知识库特征连接,并通过线性变换投影到d维。该交互SI'i,o,r生成知识库特征,包含之前推理步骤中记忆的参与信息,以及在当前推理步骤中无人参与的知识库信息。SI'i,o,r包含从面向对象场景图中提取的语义信息。

?然后,我们使SI’0i,o,r与ri交互,让参与的问题单词引导提取门,在当前的推理步骤中检测知识库的重要对象。在SGKB分支中,这种集成通过简单的乘法完成。

?然而,在OKB分支中,方程式(5)和(6)中的SGo,r被替换为对象区域特征OBo,并生成交互I0i,o,它将通过方程式(8)中所述的超对角融合与ri[4]集成,其中θ是一个要训练的参数。超对角融合通过投影张量将两个向量投影成一个d维的向量,并将投影张量分解成三个不同的矩阵,以降低计算成本,同时促进输入向量之间更强的相互作用。结果的Fri,I'0i,o通过线性变换来生成eai,o。

?与推理门中的过程类似,eai,o,r和eai,o然后通过softmax,以获得知识库中每个对象的注意力权重的分布。将每个eai,o,r/eai,o和知识库SGo,r/OBo乘法求和,得到提取的信息ei。

?更新门

? ? ? ? 我们将线性转换应用到提取的信息ei和先前的记忆状态mi?1的连接上,以得到miprev。

?为了减少短问题的冗余推理步骤,我们在miprev和r'i上应用了符号函数,其中r'i=W1×dri+b1来生成最终的内存状态mi。

? ? ? ? ?在OKB分支和SGKB分支中生成的最终记忆状态分别连接在一起,作为整个P个推理步骤的最终记忆状态mP。然后将mP与问题句子嵌入q集成起来进行答案预测。在这项工作中,我们设置了P=4。

四、评估

4.1 评估设置

数据集

? ? ? ? 使用GQA数据集:(1)复杂的对象关系:113018张逼真图像和五种不同类型(选择、逻辑、比较、验证和查询)的22669678个问题;(2)深度推理任务:超过85%的问题有2-3个推理步骤,8%的问题有4+个推理步骤。GQA使用从VIsual Genome中提取的场景图以及为每对图像和问题指定推理操作的功能程序进行注释。数据集分为70%训练,10%验证,10%test-dev和10%测试集。

4.2 性能比较

?? ? ? ? 表1中,将我们的模型在GQA的验证集和test-dev集上与先进模型比较,GQA的test-dev集没有提供预注释的场景图,我们使用[26]提出的方法预测对象间的关系,并从GQAtest-dev集的图像中生成场景图,以进行评估。然而,生成的场景图没有GQA验证集中预注释的场景图好,导致test-dev上的性能下降,然而,我们的模型仍然达到最先进性能,验证集上92.7%,测试开发集上73.1。与仅使用注意力机制将视觉像素特征与问题嵌入的融合[1,11,23]相比,我们的模型应用超对角融合实现更强的交互,并将场景图特征与问题嵌入集成,帮助实现更好的性能。此外,我们的模型在[10]上得到了极大的改进,它使用对象的图形表示,但将对象特征与对象的上下文关系特征连接起来,作为视觉特征,通过软注意将其与问题特征集成。比[10]的显著改进表明,OKB和SGKB分支的并行训练可以成功地捕捉到图像中对象的结构关系。

4.3 消融研究

? ? ? ? ?表2中表明,集成面向对象的场景图特征对于在GQA上实现更好的性能至关重要,仅使用OKB分支,验证准确率显著下降29.65%,测试开发准确率显著下降15.93%,性能的显著下降也证明了对象结构关系的语义信息在VQA任务中的重要性。此外,应用超对角融合是我们的模型在GQA上具有良好性能的另一个关键原因,我们比较了应用超对角融合的模型和应用元素级乘法的模型的性能。结果表明,使用元素级乘法会导致验证集下降2.61%,测试开发集下降0.8%。它仍然表明,图像特征与超对角融合产生的问题特征之间的具体交互作用有助于提高GQA的性能。

4.4 参数比较

? ? ? ??REXUP单元的序列将导致最终答案预测的序列推理步骤。每个单元格中的三个门被设计用来跟踪问题的组成结构和从知识库中检索与问题相关的信息。更少的细胞不足以提取相关的知识库信息来进行准确的答案预测,特别是对于长度较长的组合问题。从实验结果中可以看出,随着单元数增加,验证和测试开发集的预测精度将逐渐提高。并得出结论,四个REXUP单元是最好的展示推理能力和在GQA上的良好性能。

4.5 解释

? ? ? ? 我们提取我们的模型在每个推理步骤中计算的语言和视觉注意权重,与可视化相应的推理过程。图2中第一行为例,在第一个推理步骤中,具体对象-人的手和头获得较高视觉注意力分数,当到第二和第三个推理步骤时,语言注意力集中在穿着,相应视觉注意力集中在人的衬衫和裤子上。这表明我们的模型具有捕捉问题的潜在语义词以及检测图像中的相关对象。此外,当对同一图像给出不同问题时,我们的模型对图像和问题也显示了良好的理解。例如,图2的第二行,模型成功捕捉手机,但第三行检测到狗。

? ? ? ??我们还发现有时我们的预测答案是正确的,尽管它与数据集中的答案不同。如图3a,当问题词出现preson和wearing时,我们的模型对潜水服给予很高的注意力分数,模型给出预测wetsuit,这与shoe一样正确。相似地,第二张图中,白色公交和红色公交都在垃圾桶的右边,但模型对红色公交分配了更高的注意力,预测no,这也是问题的正确答案。此外在某些情况下,我们的模型答案相比于数据集中注释的答案更准确。如图3b第一张图,pen,一个围栏环绕,保持动物在里面的小区域,比注释的答案yard更准确。同样,床和被子在形状上不同,但都是白色,使得模型答案正确,而真实答案不正确。

五、结论

? ? ? ? 我们的REXUP网络在捕获逐步推理过程和检测一个复杂的对象关系方面都表现很好。我们提出的模型在GQA数据集上取得最先进性能,证明了VQA任务中对象的结构和组合关系的重要性。提取场景图的语义信息并通过文本嵌入对其编码,对模型捕获对象的这种结构关系是有效的。对分别具有对象区域和场景图特征的两个分支并行训练,有助于模型发展对图像和问题的全面理解。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-11 16:38:36  更:2021-07-11 16:40:20 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年3日历 -2024/3/29 17:00:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码