IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【论文阅读】ICLR 2020 InfoGraph -> 正文阅读

[人工智能]【论文阅读】ICLR 2020 InfoGraph

Unsupervised and Semi-supervised Graph-Level Representation Learning via Mutual Information Maximization

摘要

本文研究了在无监督和半监督场景下学习整个图的表示。图级表示在各种现实应用中至关重要,如预测分子的性质和社交网络中的社区分析。传统的基于图核的方法虽然简单,对于获得图的固定长度的表示很有效,但由于手工设计,它们的泛化性较差。最近也有一些基于语言模型(例如,graph2vec)的方法,但它们都倾向于只考虑某些子结构(例如,子树)作为图的代表。

无监督表示学习最新进展的启发,本文提出了一种新的学习图级表示的方法——InfoGraph。我们最大化图级表示和不同尺度(如节点、边、三角形)的子结构表示之间的互信息。通过这样做,图级表示可以对在不同规模的子结构中共享的数据的各个方面进行编码。此外,我们进一步提出了InfoGraph*,这是半监督场景的扩展。InfoGraph* 最大化InfoGraph学到的无监督图表示与现有监督方法学到的表示之间的互信息。因此,监督编码器从未标记的数据中学习,同时保留当前监督任务所偏好的潜在语义空间。对图分类和分子性质预测的实验结果表明,InfoGraph优于最先进的基线,InfoGraph*可以实现与最先进的半监督模型的性能竞争。

1 方法

最近有关图的工作集中在监督学习任务或学习节点表示。然而,许多图的分析任务,如图的分类、回归和聚类,都需要将整个图表示为固定长度的特征向量。虽然图级表示可以通过节点级表示隐式获得,但显式地提取图对于面向图的任务可以更直接和更优。

在本节中,我们首先制定一个无监督的整个图的表示学习问题和一个图上的半监督预测任务。然后,我们提出了我们的学习图级表示的方法。然后,我们提出了我们提出的半监督学习场景的模型
在这里插入图片描述

1.1 问题定义

(1)无监督的图表示学习

给定一组图 G = { G 1 , G 2 , … } \mathbb{G}=\{G_1,G_2,…\} G={G1?,G2?,}和一个正整数 δ δ δ(预期的嵌入大小),我们的目标是学习每个图 G i ∈ G G_i∈\mathbb{G} Gi?G δ δ δ维分布表示。我们将 G i G_i Gi?中的节点数表示为 ∣ G i ∣ |G_i| Gi?。我们将所有图的表示的矩阵表示为 Φ ∈ R ∣ G ∣ × δ Φ∈\mathbb{R}^{|\mathbb{G}|×δ} ΦRG×δ

(2)半监督的图预测任务

给定一组标记的图 G L = { G 1 , ? ? ? , G ∣ G L ∣ } \mathbb{G}^L=\{G_1,· · ·,G_{|\mathbb{G}^L|}\} GL={G1?,???,GGL?}和相应的输出 { o 1 , ? ? ? , o ∣ G L ∣ } \{o_1,···,o_{|\mathbb{G}^L|}\} {o1?,???,oGL?}以及一组未标记的样本 G U = { G ∣ G L ∣ + 1 , ? ? ? , G ∣ G L ∣ + ∣ G U ∣ } \mathbb{G}^U=\{G_{|\mathbb{G}^L|+1},· · ·,G_{|\mathbb{G}^L|+|\mathbb{G}^U|}\} GU={GGL+1?,???,GGL+GU?},我们的目标是学习一个模型,可以对看不见的图做出预测。在大多数情况下, ∣ G U ∣ > > ∣ G L ∣ |\mathbb{G}^U|>>|\mathbb{G}^L| GU>>GL

1.2 InfoGraph

我们关注的是图神经网络(GNNs)——一类灵活的嵌入架构,它通过在局部节点邻域上的重复聚合来生成节点表示。节点的表示是通过聚合其邻域节点的特征来学习的,因此我们将这些表示称为补丁表示。GNN利用一个读出函数将所有获得的补丁表示总结为一个固定长度的图级表示。

形式上,GNN的第 k k k层是:
在这里插入图片描述
其中, h v ( k ) h^{(k)}_v hv(k)?是节点 v v v在第 k k k个迭代/层处的特征向量(或以节点 i i i为中心的补丁表示)。读出函数可以是一个简单的排列不变函数,如平均,或一个更复杂的图级池化函数。

我们试图通过最大化图级和补丁级表示之间的互信息来获得图表示。通过这样做,图表示可以学习****对跨所有子结构共享的数据进行编码。假设我们得到一组训练样本 G : = { G j ∈ G } j = 1 N \pmb{G}:=\{G_j∈ \mathbb{G}\}^N_{j=1} GGG:={Gj?G}j=1N?,输入空间上的经验概率分布为 P \mathbb{P} P。设 ? \phi ?表示 K K K层GNN的参数集。在GNN的前 k k k层后,输入图将被编码成一组补丁表示 { h i ( k ) } i = 1 N \{h^{(k)}_i\}^N_{i=1} {hi(k)?}i=1N?。接下来,我们将GNN所有深度的特征向量总结为一个特征向量,该特征向量在以每个节点为中心的不同尺度上捕获补丁信息。我们使用连接。即:
在这里插入图片描述
其中, h ? i h^i_\phi h?i?是以节点 i i i为中心的总结补丁表示 H ? ( G ) H_\phi(G) H??(G)是应用读出函数后的全局表示

我们定义了全局/局部对上的互信息(MI)估计器,在给定的数据集 G : = { G j ∈ G } j = 1 N \pmb{G}:=\{G_j∈ \mathbb{G}\}^N_{j=1} GGG:={Gj?G}j=1N?上最大化了MI:
在这里插入图片描述
I ? , ψ I_{\phi,ψ} I?,ψ?是由discriminator T ψ T_ψ Tψ?建模的互信息估计器,由参数为 ψ ψ ψ的神经网络参数化。我们使用Jensen-Shannon互信息估计器:
在这里插入图片描述
其中, x x x是一个输入样本, x ′ x' x(负样本)是从 P ~ = P \widetilde{\mathbb{P}}=\mathbb{P} P =P采样的输入(与输入空间的经验概率分布相同的分布), s p ( z ) = l o g ( 1 + e z ) sp(z)=log(1+e^z) sp(z)=log(1+ez)为softplus函数。在实践中,我们使用一个batch中的所有图中全局和局部补丁表示的所有可能组合来生成负样本

由于 H ? ( G ) H_\phi(G) H??(G)被鼓励对包含所有尺度信息的补丁有高的MI,这有利于编码跨补丁共享的数据和跨尺度共享的数据。该算法如图1所示。

该模型与DGI的不同:

  1. DGI使用随机抽样来获取负样本,因为它们主要集中于学习图上的节点嵌入。然而,对比方法需要大量的负例,因此,使用分批生成的负样本是至关重要的,我们正试图学习给定许多图形实例的图嵌入。
  2. 我们使用GIN作为图卷积编码器,而DGI使用GCN,因为GIN为图级应用程序提供了更好的inductive偏差。应仔细考虑图神经网络的设计,以便图表示可以区别于其他图实例。例如,我们使用求和来读出,这可以提供关于图的大小的重要信息

2.3 半监督InfoGraph

基于之前的无监督模型,对图进行半监督性质预测的一种简单方法是将监督损失与作为正则化项的无监督目标函数相结合。在此过程中,该模型被训练来预测标记数据集的属性,同时保持从标记数据集和未标记数据集学习到的丰富的区别性中间表示。也就是说,我们尽量最小化以下目标函数:
在这里插入图片描述
λ \lambda λ为超参数,控制了监督损失和无监督损失之间的相对权重。该模型将受益于从大量的未标签数据中学习良好的表示,同时学习预测相应的监督标签。

然而,监督任务和无监督任务可能有利于不同的信息或不同的语义空间。使用相同的编码器简单地合并这两个损失函数可能会导致“负转移”。我们提出了一种简单的方法来缓解这个问题:我们部署了两个编码器模型:标记数据上的编码器(有监督的编码器)和未标记数据上的编码器(无监督的编码)为了将学习到的表示从无监督编码器转移到监督编码器,我们定义了一个损失项,鼓励两个编码器学习到的表示在所有表示层次上都具有较高的互信息(公式(8)的第三项)。形式上,让 φ φ φ表示另一个 k k k层图神经网络的参数集,另一个通过 ? \phi ?参数化,并让 λ \lambda λ是一个可调的超参数, H ? k ( G ) H^k_\phi(G) H?k?(G) H φ k ( G ) H^k_φ(G) Hφk?(G)是图 G G G在编码器层 k k k处的全局表示,总损失函数定义如下:
在这里插入图片描述
实际上,为了减少公式(8)的第三项引入的计算开销,在每次训练更新时,我们在编码器的随机选择层上强制执行互信息最大化,而不是在编码器的所有层上强制执行互信息最大化。

InfoGraph*如图3所示。
在这里插入图片描述

2 实验

在这里插入图片描述
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-09 10:14:30  更:2021-08-09 10:17:16 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 21:44:19-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码