[人工智能] VQA论文2021CVPR

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> VQA论文2021CVPR -> 正文阅读

[人工智能]VQA论文2021CVPR

2021CVPR

Perception Matters: Detecting Perception Failures of VQA Models Using Metamorphic Testing

论文链接
 代码

论文概述

高水平的推理一般需要执行多个感知子任务。对于VQA，仅仅使用准确率衡量模型的好坏，无法详细指出错误是来自于低水平的感知问题还是高水平的推理。本文引入MetaVQA，将图像和问题分别转换成子问题和子图像，衡量VQA模型的感知能力。

方法

在这里插入图片描述
Question-Oriented MRs: 使用细粒度的目标检测器 $OD_{fine}$ 提取出目标和相应的属性；由于细粒度的提取的目标有较多的重叠，使用粗粒度的目标检测器定位目标，以进行图像的分割；

Object-/Property-Oriented Partitioning: 根据图像中目标识别的结果，合成可分解的计数问题，验证 $V(q,i)=\sum_{q'\in Q_{par}}V(q',i)$ ；注意在MetaVQA中仅仅将问题分成两个子问题验证就使得准确率下降；分解方法有Object-Oriented Partitioning:将问题q转换成计数两个单独的objects的数量；见下图；
Property-Oriented Partitioning例子： $Q :$ How many standing giraffes and lying giraffes are in the image?
$Q_1:$ “How many standing giraffes are in the image?”
$Q_2:$ “How many lying giraffes are in the image?”
Object- and Property-Oriented Reordering: 将问题和属性调换位置；
Object- or Property-Oriented Reversion：问题反转，答案应该不同；

Image-Oriented MRs： 根据 $OD_{coarse}$ 得到一系列的目标，从而将图像进行分割成不相交的几部分；在不损坏图像其他目标的前提下，加入一些目标或者移除一些不相关的物体；增加一个问题所问的物体；

实验

对近几年的SOTA方法按照论文中的方法进行评估，结果如下：
在这里插入图片描述
方法中的+代表使用了train+val set，对于大部分的方法，增加训练数据反而会增加模型的错误率；BERT模型对于Insertion,partition,removal效果好的原因可能是将很多结果预测为0；Oscar模型将图像和问题进行对齐，可以增加对问题和图像的理解，因此效果算是可以的；