双曲空间 异构网络嵌入
参考阅读:
HHNE
摘要
异构信息网络(HIN)嵌入是一种将HIN映射到低维空间的技术,引起了广泛的研究。现有的HIN嵌入方法大都关注于在欧氏空间中保持固有的网络结构和语义关联。然而,一个基本问题是,欧几里得空间是HIN的合适空间还是内在等距空间?最近的研究认为,复杂网络可能具有双曲几何结构,因为双曲几何可以自然地反映复杂网络的一些性质,如层次结构和幂律结构。本文首先对双曲空间中的HIN嵌入进行了研究。我们分析了两个真实世界的HIN的结构,发现HIN也存在幂律分布等性质。为此,提出了一种新的双曲异构信息网络嵌入模型。具体来说,为了捕获节点之间的结构和语义关系,我们采用元路径引导的随机游走对每个节点的序列进行采样。然后利用双曲空间中的距离作为近似度量。双曲距离能够满足三角形不等式,并很好地保持HIN的传递性。我们的模型使节点及其邻域具有较小的双曲距离。在此基础上,进一步推导出了有效的双曲嵌入迭代更新优化策略。实验结果表明,本文提出的模型不仅在网络重构和链路预测任务方面具有较好的性能,而且通过可视化显示了其在HIN中捕获层次结构的能力。
1 引言
异构信息网络(HINs)是由多种类型的节点和边组成的网络。在HINs中对真实世界中的数据建模可以捕获丰富的数据语义。例如,书目网络可以建模为一个HIN,有三种节点:作者、论文和地点(Fu, Lee, and Lei 2017)。此外,节点之间的关系,如作者-论文(写),论文地点(发表),有不同类型的边。近年来,HIN embedding以在保持结构和语义信息的同时学习低维空间中的节点表示为目标,得到了越来越多的研究。受益于HIN嵌入,各种基于HIN的应用,如推荐(Shi et al. 2018;Hu et al. 2018)和链接预测(Chen et al. 2018),都可以在低维空间进行和改进。 到目前为止,已经提出了许多HIN嵌入方法。松散地说,有基于随机游走的工作(Dong, Chawla, and Swami 2017;Fu, Lee, and Lei 2017),基于网络划分的方法(Tang, Qu, and Mei 2015;Xu et al. 2017),以及基于深度神经网络的HIN embedding (Chang et al. 2015;Wang et al. 2018)。从本质上讲,由于结构和语义是HIN中最重要的两个信息,它们大多关注于如何在低维空间中有效地保存HIN结构和语义。然而,另一个基本问题是,什么是HIN合适的或内在的潜在等距空间?由于欧几里得空间是我们直观友好、视觉直观的三维空间的自然泛化,因此它们成为了当前HIN嵌入方法的首选。而越来越多的研究表明,许多类型的复杂数据,如社交网络,实际上具有高度的非欧几里德潜解剖(Bronstein et al. 2017)。这促使我们重新思考,当前选择的用于HIN嵌入的低维空间,即欧几里得空间是否最优,是否存在其他可行的非欧几里得空间? 最近,双曲空间在网络科学的背景下获得了势头。双曲空间常负曲率的空间(Cannon et al. 1997)。双曲空间的一个优势是它们比欧氏空间扩展得更快(Nickel和Kiela 2017)。例如,考虑一个圆和一个磁盘在常曲率的二维双曲空间K =?1,圆的长度和磁盘双曲半径r的面积给出2πsinhr和2π(coshr?1),分别和他们成长为erwith r。在一个二维欧几里得空间,给出半径为r的圆的长度和圆盘的面积分别为2πr和πr2,相对于r只作线性二次增长。因此,在双曲空间中,很容易对复杂数据进行低维嵌入建模。由于双曲空间的特性,(Krioukov et al. 2010)假设复杂网络下存在双曲空间,发现幂律结构的数据适合在双曲空间中建模。由于双曲空间的这些性质,一些著作开始研究不同数据的双曲嵌入。例如,(Dhingra et al. 2018)将文本嵌入到双曲空间中。(Nickel and Kiela 2017)和(Ganea, Becigneul, and Hofmann 2018)学习了同质网络的嵌入。
本文提出了一种双曲异构信息网络嵌入模型(HHNE),该模型能够保留双曲空间中的结构信息和语义信息。我们利用元路径引导的随机游走为每个节点生成异构邻域,以捕获HIN中的结构和语义关系。然后用双曲空间中的距离来度量节点之间的距离。由于距离是在度量空间中定义的,节点之间的邻近性满足三角形不等式,能够很好地保持HIN中的传递性。我们的模型能够最大化邻域节点之间的接近度,同时最小化负采样节点之间的接近度。进一步推导了双曲嵌入迭代优化的有效优化策略。
主要贡献:
- 据我们所知,我们是第一个研究双曲空间HIN嵌入问题的人。
- 提出了一种新的HIN嵌入模型HHNE,该模型基于元路径引导的随机游动来保持双曲空间中的HIN结构和语义关联。
- 我们进行了大量的实验,以评估HHNE在两个真实数据集上的表现能力和泛化能力。结果表明,HHNE与现有的先进技术相比具有优越性。
2 相关工作
网络嵌入 最近,在网络嵌入方面取得了重大进展(Cui et al. 2018)。例如,DeepWalk (Perozzi, Al-Rfou, and Skiena 2014)受到语言建模技术的启发,将随机游动生成的节点序列视为“句子”,将节点视为“单词”,然后最大化节点之间的共现概率。LINE (Tang et al. 2015)能够有效地学习不去嵌入,同时保留一阶和二阶结构。Node2vec (Grover and Leskovec 2016)来源于DeepWalk。它设计了一个参数化随机游走过程来学习节点的映射,最大限度地保留节点的网络邻域。SDNE (Wang, Cui, and Zhu 2016)使用自动编码器捕获局部和全局网络结构,以学习用户表示。大多数网络嵌入方法将网络嵌入到低维欧氏空间中,也有一些研究者开始将网络嵌入到低维双曲空间中。(Nickel and Kiela 2017)将网络嵌入到双曲空间中,学习网络的层次特征表示。(Ganea, Becigneul, and Hofmann 2018)将有向无环图嵌入到双曲空间中,以学习它们的层次特征表示。然而,这些方法只关注于学习同质网络中节点的表示,没有考虑复杂信息网络的异构性。 异构信息网络嵌入 近年来,人们提出了一些针对HIN的表示学习方法。Metapath2vec (Dong, Chawla, and Swami 2017)将基于随机行走的元路径形式化,获得节点的异构邻域,并利用Skip-gram模型学习网络结构。HIN2vec (Fu, Lee, and Lei 2017)联合进行多个预测任务,学习节点和元路径的表示。PTE (Tang, Qu, and Mei 2015)将HIN划分为一组边向二部网络,然后使用LINE联合学习特征表示。EOE (Xu et al. 2017)的目标是嵌入耦合的HIN, HIN由两个不同但相关的同质网络组成。它使用与LINE相同的函数对每个同质网络进行建模。HNE (Chang et al. 2015)将HIN中的不同对象转换为统一的特征表示,并共同考虑网络中的内容和拓扑结构来创建嵌入。SHINE (Wang et al. 2018)利用多个深度自编码器提取用户的高度非线性表示,同时保留原始网络的结构 综上所述,所有HIN嵌入模型都将HIN投影到低维欧氏空间。然而,欧几里得空间是否最合适仍然是一个悬而未决的问题。
3 相关知识
4 双曲空间中的HIN嵌入
6 结论
本文研究了双曲空间中HIN的嵌入问题。我们提出了HHNE方法,该方法的目标是在考虑给定节点的多种类型的邻域时最大限度地接近。我们利用双曲空间中的距离作为接近测度,满足三角形不等式,并能很好地保持HIN的传递性。采用随机黎曼优化方法对双曲嵌入算法进行更新。大量的实验表明,HHNE的嵌入性能优于现有的网络嵌入方法,特别是嵌入空间维数小,证明了HHNE能够发现HIN中的潜在层次结构。
总结 本文的研究仍然是基于元路径的,且要求定义的元路径在HIN中是呈幂律分布的。少量的不满足幂律分布的元路径的存在,并不会对结果产生较大影响
|