[人工智能] 【多模态】《Stacked Attention Networks for Image Question Answering》论文阅读笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【多模态】《Stacked Attention Networks for Image Question Answering》论文阅读笔记 -> 正文阅读

[人工智能]【多模态】《Stacked Attention Networks for Image Question Answering》论文阅读笔记

一、概述

这篇文章做的任务是视觉问答。论文的创新点主要在于在使用问题的语义表示作为查询来搜索图像中与答案相关的区域的基础之上，开发了一个多层 SAN（Stacked Attention Networks），在其中多次查询图像以逐步推断答案。

模型的结构图如下：
请添加图片描述
SAN首先使用问题向量查询第一个视觉注意层中的图像向量，然后将问题向量和检索到的图像向量组合成一个细化的查询向量，在第二个注意层再次查询图像向量。更高级别的注意力层给出了更清晰的注意力分布，专注于与答案更相关的区域。最后，我们将来自最高注意力层的图像特征与最后一个查询向量相结合来预测答案。

二、Image Model

请添加图片描述

与之前的研究使用最后一个内积层的特征不同，我们从最后一个池化层中选择特征 $f_I$ ，它保留了原始图像的空间信息。我们首先将图像重新缩放为 448 × 448 像素，然后从最后一个池化层中获取特征，因此其维度为 512×14×14，如图 2 所示。14 × 14 是区域数在图像中，512 是每个区域的特征向量的维度。因此，fI 中的每个特征向量对应于输入图像的 32×32 像素区域。我们用 fi,i ∈ [0, 195] 表示每个图像区域的特征向量。

然后为了建模方便，我们使用单层感知器将每个特征向量转换为与问题向量具有相同维度的新向量:
请添加图片描述

三、Question Model

给定问题 q = [q1 , …qT ]，其中 qt 是位置 t 处单词的one-hot向量表示，我们首先通过嵌入矩阵 $x_t = W_eq_t$ 将单词嵌入向量空间。然后对于每个时间步，我们将问题中单词的嵌入向量提供给 LSTM：
请添加图片描述
然后将最终的隐藏层作为问题的表示向量，即 $v_Q = h_T$ 。