| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Deconfounded Visual Grounding -> 正文阅读 |
|
[人工智能]Deconfounded Visual Grounding |
**本文内容仅代表个人理解,如有错误,欢迎指正** 1. Background knowledge* 这篇论文重度包含因果推理的相关知识,本文可能会粗略带过,感兴趣的可以去看看原论文,有比较详细的解释说明。 Q1: 什么是confounder? - confounder在因果推理当中有确切的定义,即混杂因子。 举个例子,在图一中,“抽烟”容易导致“黄手指”与“肺癌”,因为“抽烟”这个共因,让“黄手指”和“肺癌”之间产生了关联,即手指黄的人很多都容易患肺癌,但不能够推出“黄手指”会导致“肺癌”,因为它们之间没有因果关系。那么,“抽烟”就是“黄手指”和“肺癌”的混杂因子,因为其让“黄手指”和“肺癌”出现了一种“伪相关”(Bias)。 图一? 另一种更复杂的情况如图二,即混杂因子造成的伪相关关系和真正的因果关系混合在一起,造成“混杂”(confounding)的情形。个人理解,G是R与L、X与L的混杂因子,其代表了训练数据集上的数据分布,在进行训练的时候,能够影响R、X和L,从而产生R与L、X与L的伪相关。另一方面,R、X是L的因,本身也存在因果关系,从而产生了“混杂”的情形。 ?图二 因果推理的一大目标就是尽量消除混杂带来的偏倚(Bias),找出真正的因果关系。 在这篇论文中,其目的是使得模型学到R与L之间的因果关系,从而在无偏倚的情况下,习得更好的特征表示。 Q2: 什么是confounding bias between language and location in the visual grounding pipeline? - 论文作者认为,模型在grounding的过程中,更依赖于query来框出target的location,而非去做visual reasoning。举个例子来说明Confounding bias,比如说在训练数据集中,包含“sheep”这个词的query,其target的location大多都在图像正中央,那么模型在做测试时,如果query中有包含“sheep”这个词,那么其框出的location有比较大的概率出现在图像正中央。 ?图三 图四 ?这有点类似于VQA中的强文本先验,举个例子,即如果在VQA训练数据集中,大多数问个数的问题的答案都是2,那么测试时给定一个问题(例如,图像中有几个苹果?How many apples in this picture?),模型有一定倾向不去对图像进行理解,而是直接回答2。 2. Points1. 将Visual grounding pipeline转为因果图,从而分析G、R、X与L之间的关系,找到混杂因子。 2. 提出Referring Expression Deconfounder(RED)来减缓存在于Visual grounding pipeline中的confounding bias。 3. Main Components主要工作分为两步: @@@这部分看不是太懂,以下只是猜想 1. 训练一个生成模型M,在文中以自编码器来实现。其以Query R为输入,输出R',再针对(R, R')利用重构损失对生成模型M进行训练。训练这个生成模型M的原因,其实是为了做后门调整(Backdoor adjustment),即利用生成模型M学得的概率分布G'代替数据集的原始分布G,就是为了阻断R与L之间的伪相关关系,从而寻找R与L之间的因果关系。 - 在图五中灰色部分可以看到,在encode和decode中间有pink bar,应该是隐层空间中的高维向量。与该方法BERT提取出的Query feature一样,每一个bar都会biased location,表示该feature对location的一个偏倚。那么在训练完生成模型M之后,将每一个sample的pink bar都取出来,进行一个聚类,得到G'中的主要元素(主要有哪些偏倚的location),形成一个Dictionary。 2. 训练一个无偏倚的Grounding model。 其输入是Image的特征与Deconfounded之后的Query特征,其他部分与普通的Visual Grounding model大同小异。这个Deconfounded的Query feature其实是BERT提取出来的Query特征(Blue bar)与Dictionary中的所有偏倚location进行一个attention,从而得到purple bar(没有偏倚的Query feature,即location可以出现在任何地方,而不是像blue bar那样只有一个biased location)。 ?图五 4. Experimental Results*从上文可以知道,RED其实就像一个插件,即插即用,可以放在众多模型上去验证其有效性。该论文主要在四个模型上验证其有效性,实验结果如下图。 ?图六 ?图七 ** 文中因果推理相关部分主要参考知乎用户@望止洋 的文章,受益匪浅。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/9 14:38:37- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |