| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 游戏开发 -> Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 论文阅读笔记 -> 正文阅读 |
|
[游戏开发]Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 论文阅读笔记 |
Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 论文阅读笔记写在前面 这是一篇关于VQA模型鲁棒性的文章,想法新颖,至少我之前还没有看到单独讨论VQA模型鲁棒性的文章,值得一读。 原文链接:Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 代码链接: Github 一、Abstract??为了理解和更好地衡量 VQA 系统的泛化性,在反事实的增强数据上评估其鲁棒性。本文提出的增强方法用于对特征属性的问题进行有关注的干预,同时也使得答案发生了变化。采用这些增强方法,本文提出了一种新的鲁棒性策略:Robustness to Augmented Data (RAD),用于衡量模型预测结果和增强的样本之间的一致性。大量的实验表明 RAD 能够评估出最先进的模型对于反事实样本仍然不够稳定。最后,本文将鲁棒性和泛化性联系起来,表明了 RAD 对于未知增强上性能的预测能力? 二、引言??目前有一些方法针对 VQA 模型的泛化性进行了研究(VQA-CP),但是有论文表明对于这些数据集中的单一属性仍然是过拟合了。此外,并没有方法提出衡量模型对于分布变换(distribution shifts)的能力,因此本文就这样出来了。 三、Robustness to Counterfactuals??这一部分,首先介绍RAD——衡量模型对于问题-答案和增强的样本之间的一致性。然后描述基于模板的 CAD 产生方法,旨在对增强的过程提出控制。 3.1 Model Robustness??将 VQA 数据集表示为:
U
=
{
(
x
v
,
x
q
,
y
)
∈
V
×
Q
×
Y
}
\mathcal{U}=\left\{\left(x_{v}, x_{q}, y\right) \in \mathcal{V} \times \mathcal{Q} \times \mathcal{Y}\right\}
U={(xv?,xq?,y)∈V×Q×Y},
x
v
,
x
q
,
y
x_v,x_q,y
xv?,xq?,y 分别为图像、问题、答案。采用一个子集
D
?
U
\mathcal{D} \subseteq \mathcal{U}
D?U 用于产生增强的样本。对于每一个样本
(
x
v
,
x
q
,
y
)
∈
D
(x_v,x_q,y)\in \mathcal{D}
(xv?,xq?,y)∈D,其增强样本表示为
(
x
v
,
x
q
′
,
y
′
)
∈
D
′
(x_v,x_q',y')\in \mathcal{D'}
(xv?,xq′?,y′)∈D′ 。进一步定义
J
(
D
;
f
)
J(\mathcal{D};f)
J(D;f) 为样本集的索引,
f
f
f 为模型。RAD 表示为正确回答的修改问题在正确回答的原始问题中所占的比例。即 3.2 Counterfactual Augmentations??增强方法:从 “number” or “other” 产生 “yes/no” 问题。举个🌰,“What color is the vehicle? Red” 改为 “Is the color of the vehicle red? Yes”。由于模型等同于同时回答 “what color” and “yes/no” 类型的问题,因此有理由相信在给出原始问题正确答案的情况下能够回答出增强的问题。所采用的模板举例如下: 四、Robustness with RAD and CADs??用实验来评估 VQA 模型对于增强样本的鲁棒性,采用三个数据集:VQAv2,VQA-CPv2,VisDial。 4.1 实验步骤Baseline Augmentations??将本文提出的增强方法与另外三种方法:VQA-Rephrasings,ConVQA、back-translation进行比较。VQA-Rephrasings 针对验证问题采用三种改述方法;ConVQA 分为 L-ConVQA & CS-ConVQA,在这两个子集中,原始的验证样本用于创造出新的问题-答案对,L-ConVQA 根据每幅图像附带的场景图生成;CSConVQA 用标注的数据手动生成;back-translation 将样本翻译为其他语言再翻译回来,这是一种对于文本增强质量很低但可以覆盖很广的方法,之前并未在VQA中考虑过,本文用 English-German 作为翻译器。 ModelsVQA-CP 模型采用的有 RUBi,LMH,CSS,VQA 模型 采用的有 BUTD,BAN,Pythia,VISDal-BERT。 4.2 结果五、Measuring Generalization with RAD??设计实验来演示 RAD 在未知的修改样本值上的预测精度,以此来建立 RAD 和泛化性之间的联系。具体来说,采用 45个 BUTD 和 LMH 不同于训练过程中问题类型分布的例子。 六、结论??本文提出了 RAD,用于惩罚那些在增强的数据上预测不一致的模型。此外,本文表明一些增强方法 CADs 的值不能有效地表明模型的鲁棒性差异。最后,本文表明 RAD 可以预测未知增强类型的泛化性?RAD能够应用到任何分类任务中,提供了有意义的鲁棒性研究。 七、附录A、Dataset StatisticsB、Our AugmentationsC、URLs of Data and CodeData、Models D、Model SettingsE、Regression Experiments总结本文是一篇关于VQA鲁棒性的文章,估计这也是第一篇了,文章的意思说的比较清楚,设计了 RAD 和 CADS,但是说实话,本文句子表达的句意我感觉有点难理解,就是理解起来较困难。但不管写的咋样,还是值得一看的。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/28 2:33:54- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |