2021CVPR
Perception Matters: Detecting Perception Failures of VQA Models Using Metamorphic Testing
论文链接 代码
论文概述
高水平的推理一般需要执行多个感知子任务。对于VQA,仅仅使用准确率衡量模型的好坏,无法详细指出错误是来自于低水平的感知问题还是高水平的推理。本文引入MetaVQA,将图像和问题分别转换成子问题和子图像,衡量VQA模型的感知能力。
方法
Question-Oriented MRs: 使用细粒度的目标检测器
O
D
f
i
n
e
OD_{fine}
ODfine?提取出目标和相应的属性;由于细粒度的提取的目标有较多的重叠,使用粗粒度的目标检测器定位目标,以进行图像的分割;
- Object-/Property-Oriented Partitioning: 根据图像中目标识别的结果,合成可分解的计数问题,验证
V
(
q
,
i
)
=
∑
q
′
∈
Q
p
a
r
V
(
q
′
,
i
)
V(q,i)=\sum_{q'\in Q_{par}}V(q',i)
V(q,i)=∑q′∈Qpar??V(q′,i);注意在MetaVQA中仅仅将问题分成两个子问题验证就使得准确率下降;分解方法有Object-Oriented Partitioning:将问题q转换成计数两个单独的objects的数量;见下图;
Property-Oriented Partitioning例子:
Q
:
Q:
Q:How many standing giraffes and lying giraffes are in the image?
Q
1
:
Q_1:
Q1?:“How many standing giraffes are in the image?”
Q
2
:
Q_2:
Q2?:“How many lying giraffes are in the image?” - Object- and Property-Oriented Reordering: 将问题和属性调换位置;
- Object- or Property-Oriented Reversion:问题反转,答案应该不同;
Image-Oriented MRs: 根据
O
D
c
o
a
r
s
e
OD_{coarse}
ODcoarse?得到一系列的目标,从而将图像进行分割成不相交的几部分;在不损坏图像其他目标的前提下,加入一些目标或者移除一些不相关的物体;增加一个问题所问的物体;
实验
对近几年的SOTA方法按照论文中的方法进行评估,结果如下: 方法中的+代表使用了train+val set,对于大部分的方法,增加训练数据反而会增加模型的错误率;BERT模型对于Insertion,partition,removal效果好的原因可能是将很多结果预测为0;Oscar模型将图像和问题进行对齐,可以增加对问题和图像的理解,因此效果算是可以的;
想法
2019,2020CVPR均有方法衡量模型的一致性,这篇论文将模型训练好以后,进行衡量,本质上也差不多;现在VQA论文比较少,大部分关注于模型的鲁棒性,提出新的评估方法,仅仅通过准确率可能无法反映模型真正的能力;仅仅通过简单的增加数据对模型效果的增加并不是很明显;
Separating Skills and Concepts for Novel Visual Question Answering
论文链接
AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning
Predicting Human Scanpaths in Visual Question Answering
论文链接
Roses are Red, Violets are Blue… But Should VQA expect Them To?
论文概述
VQA模型很容易利用数据集中的统计误差,对于OOD数据和具有少量样本的数据效果不好。VQA-CP人工调整训练集和测试集中的答案分布,不能反映真实世界的趋势,同时由于没有验证集,得到的模型过度拟合于这种分布;本文提出GQA-OOD认为稀少的问答对更能反映模型的推理能力;
方法
|