开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Greedy Gradient Ensemble for Robust Visual Question Answering论文笔记 -> 正文阅读

[人工智能]Greedy Gradient Ensemble for Robust Visual Question Answering论文笔记

Greedy Gradient Ensemble for Robust Visual Question Answering 论文笔记

一、Abstract
二、引言
三、相关工作
- 3.1 Debias with dataset construction
- 3.2 Debias with model design
四、Revisiting Language Bias in VQA
五、方法
六、实验
七、结论
八、补充材料
写在最后

写在前面
很长一段时间没写博客了，时间真是太紧了，好好学习~
分享一篇ICCV2021的文章，关于VQA中的bias，评价数据集为VQA-CP-v2和VQA-v2
论文地址：Greedy Gradient Ensemble for Robust Visual Question Answering
代码地址：GitHub

一、Abstract

??VQA模型在没有考虑图像信息的情况下，总是会基于语言bias进行预测。本文提出VQA模型中语言bias主要来源两个方面：
?? 1、数据集的分布bias
?? 2、捷径bias
??进一步提出来一个新的de-bias框架，Greedy Gradient Ensemble (GGE)，可以联合多种有bias的模型来学到无bias的模型。
??理论依据：采用贪心策略，强迫有bias的模型在一开始就过度拟合bias的数据，因此base模型能够去关注那些bias模型无法解决的样本问题。

二、引言

??大多的VQA方法往往依赖于数据集中的bias，即没有考虑到图像中视觉信息的情况下，总是会利用问题和答案之间的表面联系来回答问题。
??例如，当问到“what sports”时，模型可能盲目的回答“tennis”，因为训练集中大多数的QA对都是这个。因此，模型在这样的数据集中训练之后便很难回答其他的问题（即使图像有很大不同）。
??当前解决这种bias问题的方法可大致分为三种类型：

??1、基于ensemble-based的方法

[38] Sainandan Ramakrishnan, Aishwarya Agrawal, and Stefan Lee. Overcoming language priors in visual question answering with adversarial regularization. In Advances in Neural Information Processing Systems, pages 1541–1551, 2018. 1, 2, 6
[7] Remi Cadene, Corentin Dancette, Matthieu Cord, Devi Parikh, et al. Rubi: Reducing unimodal biases for visual question answering. In Advances in neural information processing systems, pages 841–852, 2019. 1, 2, 3, 4, 6, 7, 12, 13, 14
[10] Christopher Clark, Mark Yatskar, and Luke Zettlemoyer. Don’t take the easy way out: Ensemble based methods for avoiding known dataset biases. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, pages 4060–4073, 2019. 1, 2, 3, 6, 7, 12, 13, 14

??2、基于grounding-based的方法

[43] Ramprasaath R Selvaraju, Stefan Lee, Yilin Shen, Hongxia Jin, Shalini Ghosh, Larry Heck, Dhruv Batra, and Devi Parikh. Taking a hint: Leveraging explanations to make vision and language models more grounded. In Proceedings of the IEEE International Conference on Computer Vision, pages 2591–2600, 2019. 1, 2, 3, 6, 14
[46] Jialin Wu and Raymond Mooney. Self-critical reasoning for robust visual question answering. In Advances in Neural Information Processing Systems, pages 8604–8614, 2019. 1, 2, 3, 6
[22] Chenchen Jing, Yuwei Wu, Xiaoxun Zhang, Yunde Jia, and Qi Wu. Overcoming language priors in vqa via decomposed linguistic representations. In AAAI, pages 11181–11188, 2020. 1, 2, 6 ??

??3、基于反事实的方法？CVPR2021? CSS？

[33] Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua, and Ji-Rong Wen. Counterfactual vqa: A cause-effect look at language bias. arXiv preprint arXiv:2006.04315, 2020. 2, 6, 7
[8] Long Chen, Xin Yan, Jun Xiao, Hanwang Zhang, Shiliang Pu, and Yueting Zhuang. Counterfactual samples synthesizing for robust visual question answering. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10800–10809, 2020. 1, 2, 3, 6, 7, 12, 14

??基于ensemble的方法根据question-only上的分支对样本再次赋予权重（减小这部分样本的重视程度？）；基于Grounding的方法更好的利用人类标注的视觉信息；基于反事实样本（CSS）的方法进一步利用这两项之间的联系提高了性能。
??即使这样，现有的方法仍未充分利用视觉和语言信息（可能这就是大佬吧？）观点论证为参考文献：

[44] Robik Shrestha, Kushal Kafle, and Christopher Kanan. A negative case analysis of visual grounding methods for VQA. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8172–8181, Online, July 2020. Association for Computational Linguistics. 2, 3, 5

??和参考文献44类似，作者进一步采用三种策略来分析bias。与此同时，作者提出存在两种类型的语言bias，也就是摘要中提及的：1、训练集和测试集分布的gap；2、特定QA对之间的语义联系，即“捷径”
在这里插入图片描述
??一般来说，长尾分布（数据偏重于一侧）是增加shortcut的一个因素，但是本文在实验中发现实际上有两个语言Bias的方面存在。采用基于Grounding Supervision或者ensemble regulation的方法并未强迫模型关注于视觉信息，所以作者提出Greedy Gradient Ensemble (GGE)，一种嵌入有bias模型但模型无关的de-bias框架。设计理念：充分利用过拟合的现象：数据的bias部分被bias特征贪心的过拟合，从而使得base模型能够去解决bias不能解决的问题样本。
??实验部分采用了不同的GGE变体模型论证了方法的泛化能力，并进一步证实了数据集的分布bias和shortcut bias在VQA中是语言bias的两个方面。
??本文的主要贡献：
??1、分析了VQA任务中的语言bias，将其分解为distribution bias & shortcut bias
??2、新的模型无关的框架GGE，能够键入bias模型
??3、性能好

三、相关工作

3.1 Debias with dataset construction

??本小节主要讲解一些数据集（VQA v2, VQA-CP）的构建，因为这是最直接的解决数据bias的方法了。

3.2 Debias with model design

??大佬发言：收集新的大尺度数据比较费时费力，所以关键是要提升模型的鲁棒性。涉及的方法有：GVQA、LDP、GVQE，后两者利用问题中的不同信息来更好地对问题进行表示。但是这些模型需要预定义的问题分析器，所以很难实现（不错的理由，😁）。
??最近的参考文献44仍然没有找到一个好的方式来测试系统实际上是否真的进行visually grounded，所以到目前最有效的方式仍然还是ensemble-based：构建一个question-only 的分支来明确地建模语言bias。例如RUBi、LMH、PoE, CSS，MFE，LFE等。
??但是其中一些方法只依赖于分类问题中的单个模态，另一些基于GCE的算法依赖于学习过程中的超参数，且在取出bias的过程中只能处理一对属性。

四、Revisiting Language Bias in VQA

4.1 问题定义

??这一小节主要是VQA模型一般套路的简单介绍。
在这里插入图片描述

4.2 Experimental Analysis for Language Bias

??本小节采用三个控制实验来研究语言bias
??0、baseline model UpDn
??1、grounding-based method HINT
??2、ensemble-based method RUBi LMH
??3、counterfactual-based method CSS

4.2.1 Inverse Grounding Annotation

??为了分析visual-grounding的作用，在改变humman-annotated 区域的重要性得分的情况下，Hint和CSS-V方法和他们原始的模型性能差不多，这表明了精确度收益并不与相关视觉区域相关。尽管这些方法能够回答困难的问题，但是仍在基于语言bias做出的回答，称之为“inverse language bias” （好嘲讽）。

4.2.2 Vision-only Model

??在这个实验中，测试基于ensemble branch的方法：RUBi和LMH，直接喂给图像特征到分类器，所以无QA捷径可走。实验结果：RUBi下降了一点，但是LMH_vo仍然超出了UpDn_vo一大截，原因在于LMH主要惩罚训练集中最频繁的答案，使得最后的分类更加平衡，这也就意味着LMH能够有效消除分布bias。

4.2.3 Inverse Supervision for Balanced Classifier

??为了测试“inverse supervision bias”能否提高精度，采用CSS，设计了“inverse supervision”策略，对于每一次迭代，采用不同监督方式，对参数更新两次：1、采用真实标签训练来获得预测的答案，此为训练了一次；2、从不含第一次排序最高的标签的集合中随机抽取作为第二次标签进行训练，即CSS的简化版本：逐步地惩罚第一轮训练中置信度最高的答案，因此能够根据这种“inverse distribution bias”构成一个更加平衡的分类。在这里插入图片描述
??此外，UpDn_vo,is精度的提升揭示了现存的分布bias，RuBi_is进一步暗示了分布bias和shortcut bias的存在。在使用外部标注的情况下，LMH_is能够比得上CSS，但在VQAv2数据集上的精度会极度退化。
??接下来是这几次的实验结论：
??1、高的准确度并不能保证系统真的是建立在答案分类上的视觉标签（有可能是bias）；GT监督或者question-only 归一化可能孤立模型利用inverse 语言bias，而不是视觉信息（莫名的一股嘲讽意味）；
??2、在VQA中，分布bias和捷径bias是语言bias中的两面，单个ensemble分支不能（同时）建模这两种类型的bias。

五、方法

??GGE：逐步逐步的消除分布bias和捷径bias，强制模型关注于图像信息

5.1 Greedy Gradient Ensemble

??这一部分公式有点多，还是看原文好些。
??令 $\mathcal(X, Y)$ 表示训练集， $X$ 是观测空间 $Y$ 是答案空间，采用交叉熵（BCE）损失：
$\mathcal{L}(P, Y)=-\sum_{i=1}^{C} y_{i} \log \left(p_{i}\right)+\left(1-y_{i}\right) \log \left(1-p_{i}\right)$
$C$ 表示最终分类的数量， $\mathcal p_{i}=\sigma\left(z_{i}\right)$ ,其中 $\mathcal z_{i}$ 是类别 $\mathcal i$ 的预测logit， $\mathcal \sigma(.)$ 为sigmoid函数，通过最小化 $\mathcal f(X;\theta)$ 和标签 $Y$ 的BCE损失来进行参数迭代：
$\min _{\theta} \mathcal{L}(\sigma(f(X ; \theta)), Y)$
其中， $f (.)$ 为DNNs的超参数，
??接下来是本文的方法：
假设 $B=\left\{B_{1}, B_{2}, \ldots, B_{M}\right\}$ 为其他先验模型提取出来的带有bias的特征，接下来调整bias的模型和base模型来得出标签 $Y$ ：
$\min _{\phi, \theta} \mathcal{L}\left(\sigma\left(f(X ; \theta)+\sum_{i=1}^{M} h_{i}\left(B_{i} ; \phi_{i}\right)\right), Y\right)$
??其中 $h_{i}(.)$ 为bias模型。

??针对这个有bias的模型，作者提出GGE：让bias的模型学习biased部分的数据，所以基础模型能够学习无bias的数据分布，即采用贪心算法使得bias模型能够对过拟合数据有优先权。
??假设 $\mathcal H_{m}=\sum\nolimits_{i=1}^{m}h_{i}(B_{i})$ ，找到一个 $h_{m+1}(B_{m+1})$ ，使得 $\mathcal{L}\left(\sigma\left(\mathcal{H}_{m}+h_{m+1}\left(B_{m+1}\right)\right), Y\right)$ 减小。因此，从理论上来说， $h_{m+1}$ 是 $L$ 在 $\mathcal H_{m}$ 上的负梯度，即有
$-\nabla \mathcal{L}\left(\mathcal{H}_{m, i}\right):=\frac{\partial \mathcal{L}\left(\sigma\left(\mathcal{H}_{m}\right), Y\right)}{\partial \mathcal{H}_{m, i}}=2 y_{m, i} \sigma\left(-2 y_{m, i} \mathcal{H}_{m, i}\right)$
??对于分类任务来说，类别 $i$ 的概率为 $i:\sigma\left(f_{i}(x)\right){\in}{\lbrace{0,1}\rbrace}$ ，而由于是 $0 ? 1$ 分类问题，所以直接将负梯度作为伪标签，采用BCE损失来优化新模型（脑洞确实大啊）。然后采 $\text {BCE Loss}$ 来优化新的模型 $h_{m+1}(B_{m+1})$ ：
$L_{m+1}={\mathcal L}({\sigma}(B_{m+1};{\phi}_{m+1}),-{\nabla}{\mathcal L({\mathcal H_{m}}))}$
??在整合完所有的bias模型后，就可以对base进行优化了，方法：
$L_{b}{\theta}={\mathcal L}{({\sigma}(f(X;{\theta})),-{\nabla}({\mathcal H_{m}})})$
??注意：此处的损失函数要考虑正负样本的选择。
为了使得上面的优化方法适用于 $\text {SGD}$ ，另外再设计了两种优化策略， $\text {GGE-interation, GGE-togethe}$ 。最终的优化方法为：
$L_{b}({\theta})+{\sum_{m=1}^{M}}L_{m}({\phi_{m}})$

5.2 GGE Implementation for Robust VQA

这一小节是对本文定义的两个语言bias（distribution & shortcut）进行分析。

5.2.1 Distribution Bias

??分布bias: 基于问题类型的答案分布bias。
??目的是在维持问题类型信息不变的情况下减少分布bias，因为问题类型的信息是从问题中得到的，所以也就和语言bias无关（有关的有两个1、长尾，2、捷径）。用公式表现为：
$B_{d}^{i}=p(a_{i}|(t_{i}))$
??其中， $t_{i}$ 表示问题 $q_{i}$ 的类型。

5.2.2 Shortcut Bias

??捷径bias：特定QA对之间的语义关联；
??解决方法：视作仅含有问题的分支，换句话说，就是单纯从问题分支里面进行解决，以问题分支对攻捷径bias；用公式表示：
$B_{q}^{i}=c_{q}(e_{q}(q_{i}))$
??其中， $c_{q}$ 表示为问题映射到向量，即 $Q{\rightarrow}{\mathbb R}^{C}$

??接下来就是为了验证分布bias和捷径bias是两种语言bias，设计了三个版本的 $\text {GGE}$ 来针对不同语言bias中的ensemble。
在这里插入图片描述

5.2.3 GGE-D

??如上图b所示，此版本 $\text {GGE-D}$ 仅有模型的分布bias参与ensemble，base模型的损失为：
$L={\mathcal L}({\sigma}(\tilde{A}),-{\nabla}(B_{d},A))$
??其中， $\tilde{A}$ 为预测的答案， $A$ 为标签答案， $B_{d}$ 为预测的分布bias。

5.2.4 GGE-Q

??如上图c所示，使用仅包含问题的分支来针对捷径bias，采用标签答案来优化该问题分支：
$L_{1}={\mathcal L}({\sigma}(B_{q}),-{\nabla}{\mathcal L}(B_{d},A))$
??相应的base模型损失为：
$L_{2}={\mathcal L}({\sigma}({\tilde A}),-{\nabla}{\mathcal L}({\sigma}(B_{q}),A))$

5.2.5 GGE-DQ

??如上图d所示，针对两种bias（分布bias & 捷径bias）同时进行操作。
??其中，问题bias的损失函数为：
$L_{1}={\mathcal L}({\sigma}(B_{q}),-{\nabla}{\mathcal L}(B_{d},A))$
??base模型的损失为：
$L_{2}={\mathcal L}({\sigma}({\tilde A}),-{\nabla}{\mathcal L}({\sigma}(B_{q})+B_{d},A))$
针对这些损失，采用补充材料中的 $\text {GGE-iter or GGE-tog}$ 来对 $L_{1} \& L_{2}$ 进行迭代。

5.3 Connection to Boosting

??Boosting定义：通过联合多种弱分类器（bias高，变化少）来产生强分类器（bias低，变化少）。要求则是每一个学习器都必须足够弱，否则就很容易过拟合。
??但由于神经网络的拟合能力贼强，所以很难利用深度模型来满足符合要求的低bias，低变化的分类器。
??因此，本文提出利用神经网络的过拟合现象，利用有bias的弱特征来过拟合bias分布。在测试阶段，仅采用经bias梯度下降后的base模型来进行测试。

??从另一方面来说，本文的思想接近于梯度增强（Gradient Boost），但是梯度增强必须贪婪地依次学习弱学习期。对于神经网络来说，通过反向传播比较复杂，所以采用 $\text {GGE-iteration \& GGE-together}$ 策略沿着批量梯度下降的方向来更新参数。

六、实验

??实验数据集： $\text {VQA-CP v2 \& VQA v2}$

6.1 评估指标

作者认为：精度高并不足矣暗示模型的视觉建模能力，所以出现了参考文献44中的新的指标： $\text{CPIG}$

??[44] Robik Shrestha, Kushal Kafle, and Christopher Kanan. A negative case analysis of visual grounding methods for VQA. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 8172–8181, Online, July 2020. Association for Computational Linguistics. 2, 3, 5

?? $\text{CPIG}$ ：衡量正确推理的能力指标，具体来说是正确的Instance在答案对应的图像最敏感的top-N个部分。例如 ${1-CPIG}$ 将其定义为 ${CGR}\text{(Correct Grounding for Right prediction)}$ ，用公式表示为：
${\%}CGR= {\frac{N_{rg,rp}}{N_{rp}}}{\times}100\%$
??其中， $N_{rp}$ 为正确预测的数量， $N_{rg,rp}$ 为不正确的答案对应不正确区域的数量。
??但是作者认为这种办法区分度不高，虽然模型具有高的 $\text{CGR}$ ，但是实际上没有足够的视觉信息用于分类。So，如果模型定位到正确的目标但是却没有正确的答案，那么很有可能就是利用了语言bias而不是图像的预测信息。因此为了衡量模型是否真的使用到了视觉信息来预测答案，引入了新的评判指标， $\text{CGW}$ ：具有正确的视觉区域但却回答错误的数量/错误预测数量的百分比，用公式表示为：
${\%}CGW={}{\frac{N_{rg,wp}}{N_{wp}}}{\times}100{\%}$
??其中， $N_{wp}$ 为预测错误的数量， $N_{rg,wp}$ 为模型提供正确的图像区域但却回答错误的数量。
??为了清楚的进行比较两种指标，作者对这两个指标做减法，得出 $\text{CGD(Correct Grounding Difference)}$ ：
${\%}CGD={\%}CGR-{\%}CGW$
?? $\text{CGD}$ 衡量了模型是否真的依赖图像的视觉区域来预测答案，该指标与 $\text{Accuracy}$ 同等重要。采用 $\text{CGD}$ 指标后， $\text{UpDn, HINinv and CSS-Vinv }$ 的结果表明这些方法并非利用视觉信息来做出答案预测。

6.2 Comparison with State-of-the-art Methods

在这里插入图片描述

??用来进行对比的模型： $\text{HINT，SCR，AdvReg，RUBi，LMH，MFE，GVQE，DLP，CF-VQA，CSS}$ ，具体请查看原文参考文献，这里就不粘贴了。
??实验结果表明 $\text{GGE-DQ}$ 效果最佳。有个现象要注意一下，一些采用entropy 归一化dorp方法的模型几乎在VQAv2上的性能下降了10%，可能是过度纠正bias，从而使得可能依赖于反语言Bias（好讽）。

6.3 Ablation Studies

在这里插入图片描述
??第一组消融实验：贪心算法能否保证bias模型学到bias数据；
??比较对象： $\text{SUM-DQ {\&} LMH-RUBi}$ ；

??第二组消融实验：比较分布bias和捷径bias，实验结果表明这两种bias是两种语言bias。

6.4 Generalization of GGE

6.4.1 Self-Ensemble

??将 $\text{GGE}$ 嵌入到其他模型上，看看效果；

在这里插入图片描述

6.4.2 Generalization for Loss Function

??对比不同的损失函数，表4含有实验结果。

6.4.3 Generalization for Base Model

??由于 $\text{GGE}$ 是模型无关的，额外测试了两种模型 $\text{BAN {\&} S-MRL}$ 作为base模型。

6.5 Qualitative Evaluation

??一些可视化的结果：
在这里插入图片描述

七、结论

??语言bias可以分解为分布bias和捷径bias，减少这俩bias的方法: $\text{GGE}$

八、补充材料

??这一部分我打算和源码一起看着撸一遍，很多算法原理啥的，也算是给自己挖个坑吧~

写在最后

这篇文章没有在模型上多下功夫，而是注重损失函数，说明这一块也是重点huo，建议配合源码熟悉，因为怎么设计的具体性的实施细节，论文并未提及，相信源码会给我们提供一点经验。另外，本文应该是受到参考文献44的启发，顺藤摸瓜看一下应该收获会更大。
(Ps：终于马马虎虎的写完了，这篇文章公式挺多的，刚好锻炼我用 latex敲公式的技能，Haha~)