| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Geometric multimodal representation learning -> 正文阅读 |
|
[人工智能]Geometric multimodal representation learning |
[2209.03299v1] Geometric multimodal representation learning (arxiv.org)https://arxiv.org/abs/2209.03299v1摘要以图为中心的人工智能(Graph AI)在建模自然界中普遍存在的交互系统方面取得了显著的成功,从生物动力学系统到粒子物理。数据的日益异构性需要可以结合多种归纳偏差的图神经架构。然而,结合来自不同来源的数据是具有挑战性的,因为适当的归纳偏差可能因数据形态而异。多模态学习方法融合多种数据模式,同时利用跨模态依赖来解决这一挑战。在这里,我们调研了140项关于以图为中心的人工智能的研究,并意识到越来越多的数据类型使用图汇集在一起,并输入到复杂的多模态模型中。这些模型分为以图像、语言和知识为基础的多模态学习。在此基础上,我们提出了一个多模态图学习的算法蓝图。通过适当地选择四个不同的组件,该蓝图可以将处理多模态数据的最先进的架构进行分组。这一努力可以为高度复杂的现实世界问题的复杂多模态架构的标准化设计铺平道路。 1.介绍基于图结构数据的大型深度学习对生物、化学、物理和社会科学的突破做出了贡献[1-7]。在许多成功的应用中,图神经网络[8]根据预定的传播方案学习图组件的表示。这些学习后的表示可以用于半监督学习[9]中的标签预测,用于无监督学习的结构重构,如链接预测[10],以及图的设计和生成问题[11,12]。关于模型输入,图学习方法已被用于对数据集进行建模,其中图结构由节点、边和上下文信息明确给出。这些上下文信息对应于图属性(即节点和边属性)。它来自定义图类型的单一来源(例如,包含文章数据的引文网络或包含化学键信息的分子网络)。 对现实问题建模通常需要考虑来自多种类型来源(例如图像、声音、文本、化学反应等)的相同实体数据测量。多模态学习探索了如何从不同分布中采样的数据组合来执行[13]预测。尽管它在单模态方法无法学习的许多应用中取得了巨大成功[14-16],但多模态学习遇到了限制其性能的关键挑战[17]。具体来说,已观察到多模态模型往往倾向于部分关注一部分模态,而忽略其余的模态,这种现象被称为模态坍缩[18]。此外,与常见的所有模态都可用的假设相反,噪声的存在或资源的限制可能会导致模态缺失[19,20]。上述问题在不同来源的数据(如生物序列、物理模拟和图像)合并的情况下很容易遇到,如图1所示。 图1 图为中心的多模态学习。左边显示的是本次调研中涉及的不同数据模态。右边显示的是多模态图学习用于取得进展的各个领域中的代表性任务。本文简要概述了多模态图学习(MGL)在这些模式中的应用,并介绍了MGL的蓝图。? 在许多应用中,不同模态之间的依赖关系可以表达一种固有的网络结构,阻碍使用简单模态融合方法[21]的特别方法的性能。最近的进展表明,图学习模型在多模态数据上的推理是成功的[22,23]。将模态依赖考虑为图边并通过学习网络结构上的表示,可以更准确地捕获它们[24,25]。特别是,在生物学和化学中,经常假设表示分子网络、蛋白质相互作用网络和蛋白质序列的图结构,这推动了基于图的多模态方法的应用[26-28]。 多模态学习和图学习联系的文献描述了通过合并在下游任务中的单模态组件处理多模态数据的架构,或利用不同模态之间的相关性的更复杂的机制。我们将这些方法组合在一个蓝图下,我们称之为多模态图学习(MGL),在这个蓝图下,我们可以以统一的多模态方式表达现有的方法,并为新架构的设计铺平道路。如图1所示,MGL考虑了不同的输入源,从计算机视觉、语言处理到物理、化学和生物。此外,基于提出的公式,揭示了三种主要的建模图类型:1)图像密集图(IIG)用于图像和视频推理相关的任务(见第3节),2)语言密集图(LIG)用于序列处理任务(见第4节),最后3)知识密集图(KIG)用于物理、化学和生物任务(见第5节)。 2.用于多模态学习的图神经网络深度学习为多模态学习创造了广泛的融合方法[13,29]。例如,循环神经网络(RNN)和卷积神经网络(CNN)架构已经成功地结合在一起,在视频描述问题中融合声音和图像表示[30,31]。最近,生成模型也被证明对于语言密集的[32]和基于物理的多模态数据[33]都非常准确。这样的模型基于编码器-解码器框架,在编码器中,合并的体系结构被同时训练(每个专门用于一种模式),而解码器负责聚合来自单一体系结构的信息。 注意力机制也显著影响了数据融合的深度学习模型。通过在模型中加入注意力权重,可以学习不同模式重要性的优先级。Up-Down模型[34]利用了一组用于图像标题和视觉问题回答(VQA)的注意层组合。VQA-Machine[35]使用共同注意机制层来生成图像和问题的重要排序。 最后,深度强化学习(RL)成功地解决了多模态学习问题。例如在视频字幕任务中,基于rl的模型PickNet[36]依次选择信息量最大的视频帧。在视觉对话任务中,视觉信息和文本信息的结合激发了可以处理多模态数据的RL方法的设计[37,38]。 通常,数据集中模态之间的复杂关系可以产生一个网络结构。图神经网络(gnn)为探索和利用在多模态数据收集中可能出现的固有网络拓扑提供了一个表达能力强、灵活的工具包。基于图的多模态学习是一个令人兴奋的新兴领域,它将多模态学习与图神经网络的最新进展相结合,在图像、文本、物理和许多其他应用领域取得进展[22 - 25,39]。 图学习模型的使用可以发生在(1)探索连接多模态数据的网络拓扑或(2)利用已经存在的拓扑来实现不同模式之间的数据融合。例如,在[25]中,作者提出了一个多模态图学习框架,用于融合神经成像数据与生物标志物和认知测试数据,用于疾病预测。在[39]中,一个图多模态网络被建议用于解决VQA问题,其中两个模型从图像和文本生成以对象为中心的图,另一个模型匹配生成的图并学习有用的表示。在[23]中,图融合网络是一个层次图网络,它探索单模态和多模态交互。 2.1以图为中心的多模态学习图神经网络用于多模态学习由于其灵活地检测数据模态之间的交互作用而受到关注。通过图学习融合不同形态的信息,需要网络拓扑结构的构建和图上推理算法的应用。我们提出了一种端到端的方法,在给定多模态输入数据集合的情况下产生输出表示。我们将这种方法称为多模态图学习(MGL)。MGL可以看作是一个蓝图,由四个以端到端方式连接的学习组件组成。在图2a中,我们强调了处理多模态数据的传统单模态架构组合与建议的一体化多模态架构之间的区别。 图2 多模态图学习蓝图概述。a,多模态学习的标准方法包括组合不同的单模态架构,每个架构针对不同的数据模态进行优化。b、相反,MGL框架中的一体化多模态架构考虑了端到端模型中每个数据模态的归纳偏差,从而实现了更具表现力的数据融合。c、MGL四个组件的路线图。即将实体识别、拓扑揭示、信息传播和表示混合学习组件集成到一体化多模态蓝图中 MGL的前两个组成部分包括识别实体和相应的相互作用,可以被归类为结构学习(SL)阶段: Component 1: Entity identification第一个组成部分负责确定问题的实体,它们从各种方式接收信息。该组件主要由构造节点以及节点所携带的模态信息组成。例如,在图像和文本数据引用患者信息的情况下,我们首先需要使用相关联的图像和文本组合构建患者节点。 Component 2: Topology uncovering定义了问题的实体后,第二个组件将发现节点之间的交互和交互类型。在图机器学习的普遍应用中,交互是明确地提供的,所以给出了图。在数据没有先验网络结构的情况下,拓扑揭示组件基于显式(例如,空间和视觉特征)或隐式(例如,表示中的相似性)特征探索可能的邻接矩阵。 MGL的下两个组成部分包括对已学习的图结构的推断,属于基于结构的学习(LoS)阶段: Component 3: Information propagation第三个组件使用卷积或消息传递步骤来学习基于图邻接的节点表示。在多个邻接矩阵的情况下,方法使用独立的传播模型或假设一个超图公式,融合邻接矩阵与单个传播模型。 Component 4: Representation mixing最后一个组件根据用户端任务对学习到的节点级表示进行转换。传播模型在节点上输出表示,这些表示可以根据最终的表示级别(例如,图级或子图级标签)进行组合和混合。 MGL蓝图的四个组成部分如图2b所示;从输入开始,由不同模式的数据组成,以任务级表示结束。此外,在框1中,我们给出了它们的数学公式。正如我们将在接下来的部分中展示的,目前最先进的方法可以被视为MGL的实例,按三种主要的建模图类型分组:用于计算机视觉任务的图像密集型图、用于文本建模的语言密集型图、用于与自然科学相关的问题(如生物、化学和物理)的知识密集型图。 3.面向图像的多模态图学习图像密集图(IIGs)是多模态图,其中节点表示视觉特征,边缘表示特征之间的空间联系。图像中的结构学习包含了IIGs的构建。为了了解这种结构,模型在IIGs上学习,通过修改GNN架构来编码与图像预测任务相关的归纳偏差,并融合CNNs和GNN。CNN编码与图像相关的几何先验:平移不变性和尺度分离[42]。平移不变性描述了CNN的输出如何不改变依赖于输入图像的移位,并通过共享权值的卷积滤波器实现。尺度分离描述了如何可能跨尺度分解特征之间的长期相互作用,专注于较小的局部相互作用,然后可以传播到课程尺度。池化层在CNNs中跟随卷积层实现尺度分离[42]。GNN可以模拟任意形状的远程依赖关系,这对图像相关任务[43]很重要,如图像分割[44,45],图像恢复[46,47],或人体物体交互[48,49]。在本节中,我们将重点介绍MGL在图像任务中的应用,以简要概述用于构建IIGs的方法,并创建模型以了解IIGs。我们根据方法的相似性将任务分成两类: 视觉理解和视觉推理。 3.1视觉理解视觉理解仍然是视觉分析的基石问题,在视觉分析中,多模态图学习已被证明对图像分类、分割和增强有用。图像分类标识图像[51]中存在的一组对象类别。语义图像分割是对一幅图像进行分割,并将每一段划分为给定的类别列表[52],在视频对象分割[44]和遥感[45]等任务中实现。图像恢复和去噪将低质量图像转化为高分辨率图像[53]。这些任务所需要的信息不仅存在于对象、段或低质量的patch中,还存在于其周围的长期环境[52]中。 IIG的构建从分割算法开始,例如简单线性迭代聚类(Simple Linear Iterative Clustering, SLIC)算法[54]来识别有意义的区域[44,55,56](图3a)。节点用FCN-16[57]或VGG19[58]等cnn初始化的表示来表示这些有意义的区域,这些cnn用于提取每个区域的特征映射和总结视觉特征[45,52]。此外,节点与CNN学习的特征空间中的k个最近邻[45 - 47,55](图3b)连接,与空间上的相邻区域[44,51,56,59]连接,或基于之前定义的节点之间的相似性阈值[47,56]连接到任意数量的邻居。 为了在IIGs上学习,许多模型使用图卷积神经网络[45,52,56,59]或图注意网络[60]的变体,根据学习到的注意分数[47,51]来衡量邻居。图去噪网络(GCDNs)[61]、内部图神经网络(IGNNs)[46]和residualGCN[44,62]等模型包括边表示来表示区域与gate之间的相似性和相对位置,或者在进行消息传递时对节点的隐藏表示与其对应的边进行元乘。 图3 多模态图学习蓝图在图像中的应用。a,用于图像理解的模态识别,其中节点代表SLIC分割算法生成的聚集的感兴趣区域或超像素。b,图像去噪的拓扑发现,图像补丁(节点)连接到其他非局部相似的补丁。c,创建两个图的人机交互中的拓扑揭示。以人类为中心的图将身体各部分映射到它们的解剖邻居,并通过相互作用将身体各部分相对于图像中其他物体的距离连接起来。d,人-物体交互中的信息传播,其中空间条件图修改消息传递,以合并强制图像中对象的相对方向的边缘特征[50]。? 3.2视觉推理视觉推理包含的任务超越了识别和修改单个视觉元素。这些任务询问关于映像中实体之间关系的问题。这些关系可以是人与对象之间的关系,如人与对象交互[48](HOI),或者更广泛地说,在视觉、语义和数字实体之间的关系,如视觉问题回答[63,64](VQA)。MGL可以明确编码和推理在IIGs上构建和学习的相关关系。 对于HOI, MGL方法识别两个相关实体,人体部位(手、脸等)和物体(冲浪板、自行车等)[48,50],它们以完全[48,49]、二部分[50,65]或部分连接拓扑结构[66,67]相互作用。用于VQA的MGL方法构建了一种新的拓扑[68],它跨越了相互连接的可视化、语义和数值图。实体表示由提取器识别的视觉对象,如Faster R-CNN[69],由光学字符识别识别的场景文本,以及数字类型文本。这些实体之间的相互作用是基于空间定位定义的:任何靠近另一个实体的实体都与边缘相连。 为了了解这些结构,这些方法区分在相同和不同实体之间传播信息。在HOI中,同一对象之间的信息(类内消息)通过GAT进行传播,通过节点隐藏向量的相似度对消息进行加权,而不同对象之间的信息(类间消息)通过GPNN[48]实现,其交互性的权重为[49]。模型可以有多个通道,这些通道对同一类的实体进行推理,并在类之间共享信息。在HOI中,关系解析神经网络[67]使用一种双通道模型,其中以人为中心和以对象为中心的消息传递在混合这些表示以进行最终预测之前执行(图3c)。同样的情况也发生在VQA中,视觉、语义和数字通道在通过视觉-语义聚合和语义-数字聚合共享信息之前执行独立的消息传递[68,70]。其他类型的神经体系结构可以作为基于图的通道的替代[65,66]。 4.面向语言的多模态图学习随着生成上下文语言嵌入的能力,语言模型已经广泛地重塑了自然语言[7]的分析。除了单词,语言的结构还存在于句子(语法树、依赖解析)、段落(句子到句子的关系)和文档(段落到段落的关系)等层面[71]。transformer是一种流行的语言模型[72],它可以捕获这种结构,但对计算和数据有严格的要求。MGL方法通过在模型中注入语言结构来缓解这些问题。具体来说,这些方法依赖于语言密集型图(LIGs),显式或隐式图中节点表示由语言依赖关系链接的语义特征。本节概述构建和学习LIGs的MGL方法。 4.1Constructing Language Intensive Graphs在最高层次上,语言数据集可以被视为文档的语料库,然后是单个文档、一组句子、一组提及、一组实体,最后是单个单词(图4a)。多模态图学习可以通过构建LIGs来考虑这些不同层次的上下文信息。在这里,我们描述了上下文的选择,因为它取决于一个特定的预测任务,以及如何创建LIGs来合并这个上下文,用于文本分类和关系提取。这两个任务是大多数语言分析的基础。 在文本分类模型中,将预先确定的标签分配给一系列文本[73]。为此,有必要了解文档中单词的用法。因此,文件和文字被确定为相关实体。这些实体之间的拓扑是根据单词在文档[73,74]中的相对位置或在整个文档[75,76]中的同时出现来定义的。关系提取旨在识别文本中单词之间的关系,这是一种对其他语言任务很重要的能力,如问题回答、总结和知识图推理[77,78]。为了捕获句子中的上下文,单词实体之间的拓扑基于句子的底层依赖树[79]。单词和文档之外的实体,特别是提到和句子,被包括进来以捕获跨句子拓扑[77,80](图4a-b) 4.2Learning on Language Intensive Graphs一旦LIG被构建,就必须设计一个模型来在图表上学习,同时结合与语言任务相关的归纳偏见。在此,我们提供了用于基于方面的情感分析(ABSA)的模型的简单例子。所述的ABSA方法适用于其他语言任务,如问答和公众意见挖掘[81]。 ABSA将文本的情绪(积极的、消极的等)赋给一个词/词或一个方面[81]。为了执行ABSA,模型必须考虑句法结构和文本中aspect和其他词之间的长期关系[82,83]。为了在长距离词关系之间传播信息,面向方面的gnn在LIGs中屏蔽非面向方面的词,在面向方面词之间进行消息传递[82]。它们还在单词和方面单词的隐藏向量之间建立或执行元素智慧乘法[84]。为了包含关于句法结构的信息,gnn通过特定类型的消息传递来区分依赖树中不同类型的关系[82-84](图4c)。 对于ABSA来说,相邻或相似句子的情感是很重要的[81]。协同图注意网络(CoGAN)通过两个基于图的建模块之间的合作实现了这一点:方面间和方面内建模块(图4d)[81]。这些块捕获具有相同方面(内部方面)的句子与其他句子之间的关系,以及文档中包含不同方面(内部方面)的相邻句子之间的关系。方面内部和方面间块的输出混合在一个交互块中,通过一系列隐藏层。通过学习到的注意权值融合各隐层之间的中间表示,形成最终的句子表示。 图4多模态图学习蓝图在文本中的应用。a、从句子到文件的文本输入的不同语境层次,以及在每个语境层次上确定的个体单位。这是MGL蓝图中模态识别的第一个组件的一个例子。b,从文本输入简化语言密集图的构造,MGL蓝图的拓扑揭示组件的应用。c和d,可视化在基于方面的情感分析(ABSA)的LIGs上学习的例子,ABSA旨在将一种情感(积极的、消极的或中性的)分配到一个与给定方面相关的句子。通过在句子中按关系类型分组(如c所示)或对句子和方面之间的关系建模(如d所示),这些方法集成了与ABSA相关的归纳偏见,并在MGL蓝图的第三个组成部分——信息传播方面进行了创新。
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 23:35:22- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |