IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【多模态论文阅读】Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Ans -> 正文阅读

[人工智能]【多模态论文阅读】Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Ans

一、亮点

  1. 对于多模态特征融合,本文开发了一种多模态因子双线性(MFB)池化方法来有效地组合多模态特征;
  2. 对于细粒度的图像和问题表示,开发了一种“共同注意”机制,使用端到端的深度网络架构来共同学习图像和问题的注意力。

二、MCB和MLB的缺点

MCB 模型依赖于高维输出特征来保证稳健的性能,这可能会由于巨大的内存使用量而限制其适用性。 为了克服这个问题,Kim 等人提出了基于两个特征向量的Hadamard乘积的多模态低秩双线性化(MLB)池模型。 由于 MLB 生成的输出特征维度较低,模型参数较少,因此与 MCB 具有很强的竞争力。 然而,MLB 的收敛速度较慢,并且对学习的超参数很敏感。 为了解决这些问题,本文开发了多模态分解双线性池(MFB)方法,该方法具有 MLB 的紧凑输出特征和 MCB 的强大表达能力的双重优点。

三、模型结构

3.1 MFB

最简单的bilinear model定义如下:
请添加图片描述
然后引入矩阵分解,得到:
请添加图片描述
上面只是输出向量的一个值,为了得到o维输出向量,则需要o个Ui和Vi,即:
请添加图片描述
通过reshape可以将U和V张量转换为矩阵,即:
请添加图片描述
于是,z的表达式可以被写为:
请添加图片描述
其中函数SumPooling(x,k)意味着使用大小为k的一维非重叠窗口对x执行SumPooling。该方法可以通过组合一些常用的层来容易地实现,例如完全连接层、按元素的乘法和汇集层。此外,为了防止过度拟合,在元素方向倍增层之后添加了Dropout层。由于引入了逐元素乘法,输出神经元的大小可能会有很大的变化,模型可能会收敛到一个不令人满意的局部最小值。所以引入了power归一化。
请添加图片描述

3.2 Relationship to MLB

MLB 是所提出的 MFB 的一个特例,其中 k = 1,对应于 rank-1 分解。 形象地说,MFB 可以分解为两个阶段(见图 1(b)):首先,将来自不同模态的特征扩展到高维空间,然后与元素乘法相结合。 之后,进行归一化层后的 sum pooling 将高维特征压缩到紧凑的输出特征中,而 MLB 直接将特征投影到低维输出空间并执行逐元素乘法。 因此,在输出特征维数相同的情况下,MFB 的表示能力比 MLB 更强大。

3.3 MFB with Co-Attention

请添加图片描述
图像和文本模块是松散耦合的,因此我们在学习文本注意模块时不会利用图像特征。 这是基于人的基本认知,因为我们假设网络可以直接推断问题注意力(即问题的关键词),而无需看到图像。

参考资料

  1. Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering论文笔记
  2. 《Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for VQA》论文笔记
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-06 13:02:47  更:2022-03-06 13:05:51 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 16:30:59-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码