IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> VQA论文2021CVPR -> 正文阅读

[人工智能]VQA论文2021CVPR

2021CVPR

Perception Matters: Detecting Perception Failures of VQA Models Using Metamorphic Testing

论文链接
代码

论文概述

高水平的推理一般需要执行多个感知子任务。对于VQA,仅仅使用准确率衡量模型的好坏,无法详细指出错误是来自于低水平的感知问题还是高水平的推理。本文引入MetaVQA,将图像和问题分别转换成子问题和子图像,衡量VQA模型的感知能力。

方法

在这里插入图片描述
Question-Oriented MRs: 使用细粒度的目标检测器 O D f i n e OD_{fine} ODfine?提取出目标和相应的属性;由于细粒度的提取的目标有较多的重叠,使用粗粒度的目标检测器定位目标,以进行图像的分割;

  • Object-/Property-Oriented Partitioning: 根据图像中目标识别的结果,合成可分解的计数问题,验证 V ( q , i ) = ∑ q ′ ∈ Q p a r V ( q ′ , i ) V(q,i)=\sum_{q'\in Q_{par}}V(q',i) V(q,i)=qQpar??V(q,i);注意在MetaVQA中仅仅将问题分成两个子问题验证就使得准确率下降;分解方法有Object-Oriented Partitioning:将问题q转换成计数两个单独的objects的数量;见下图;
    Property-Oriented Partitioning例子: Q : Q: Q:How many standing giraffes and lying giraffes are in the image?
    Q 1 : Q_1: Q1?:“How many standing giraffes are in the image?”
    Q 2 : Q_2: Q2?:“How many lying giraffes are in the image?”
    在这里插入图片描述
  • Object- and Property-Oriented Reordering: 将问题和属性调换位置;
  • Object- or Property-Oriented Reversion:问题反转,答案应该不同;

Image-Oriented MRs: 根据 O D c o a r s e OD_{coarse} ODcoarse?得到一系列的目标,从而将图像进行分割成不相交的几部分;在不损坏图像其他目标的前提下,加入一些目标或者移除一些不相关的物体;增加一个问题所问的物体;

实验

对近几年的SOTA方法按照论文中的方法进行评估,结果如下:
在这里插入图片描述
方法中的+代表使用了train+val set,对于大部分的方法,增加训练数据反而会增加模型的错误率;BERT模型对于Insertion,partition,removal效果好的原因可能是将很多结果预测为0;Oscar模型将图像和问题进行对齐,可以增加对问题和图像的理解,因此效果算是可以的;

想法

2019,2020CVPR均有方法衡量模型的一致性,这篇论文将模型训练好以后,进行衡量,本质上也差不多;现在VQA论文比较少,大部分关注于模型的鲁棒性,提出新的评估方法,仅仅通过准确率可能无法反映模型真正的能力;仅仅通过简单的增加数据对模型效果的增加并不是很明显;

Separating Skills and Concepts for Novel Visual Question Answering

论文链接

AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning

Predicting Human Scanpaths in Visual Question Answering

论文链接

Roses are Red, Violets are Blue… But Should VQA expect Them To?

论文概述

VQA模型很容易利用数据集中的统计误差,对于OOD数据和具有少量样本的数据效果不好。VQA-CP人工调整训练集和测试集中的答案分布,不能反映真实世界的趋势,同时由于没有验证集,得到的模型过度拟合于这种分布;本文提出GQA-OOD认为稀少的问答对更能反映模型的推理能力;

方法

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-11 16:38:36  更:2021-07-11 16:40:59 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 0:35:55-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码