[人工智能] 论文阅读|node2vec: Scalable Feature Learning for Networks

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 论文阅读|node2vec: Scalable Feature Learning for Networks -> 正文阅读

[人工智能]论文阅读|node2vec: Scalable Feature Learning for Networks

论文阅读|node2vec: Scalable Feature Learning for Networks

文章目录

- 论文阅读|node2vec: Scalable Feature Learning for Networks

Abstract

Node2vec:一种用于学习网络中节点的连续特征表示的算法框架。学习节点到低维特征空间的映射，以最大化保留节点网络领域概念，并设计了一个baised（偏向）随机游走过程，有效探索不同的领域。

Introduction

任何有监督的机器学习算法都需要一组信息丰富的、有辨别力的和独立的特征。在网络的预测问题中，这意味着必须为节点和边构建特征向量表示。非典型解决方案涉及基于专业知识的手工工程特定领域特征。即使不考虑特征工程所需的繁琐工作，这些特征通常是为特定任务设计的，并且不会在不同的预测任务中泛化。另一种方法是通过解决优化问题来学习特征表示。特征学习的挑战在于定义目标函数，这涉及平衡计算效率和预测准确性的权衡。

node2vec 可以学习根据节点的网络角色或它们所属的社区组织节点的表示。通过开发一系列有偏随机游走来实现这一点，它可以有效地探索给定节点的不同邻域。

贡献如下：

提出了 node2vec，这是一种用于网络中特征学习的高效可扩展算法，可使用 SGD 有效优化新的网络感知、邻域保留目标。
算法的灵活性，适用于等价网络？
扩展了node2vec和其他基于邻域保留目标的特征学习方法，从节点到节点对，用于基于边的预测任务。
应用于现实网络中进行多标签分类和链路预测

Feature Learning Framework

$f:V→R^d$ ，d为特征维度，f为大小为 $∣ V ∣$ 的矩阵，对于每个源节点 $u \in V$ ，我们将 $N_S (u) ? V$ 定义为通过邻域采样策略 S 生成的节点 u 的网络邻域。

优化以下目标函数：
$max_f\sum_{u∈V}logPr(N_S(u)|f(u))$
为优化问题易于处理，论文中做出两个标准假设：

有条件的独立。我们通过假设观察邻域节点的可能性独立于给定源的特征表示观察任何其他邻域节点来分解似然：
$Pr(N_S(u)|f(u))=\prod_{n_i∈N_S(u)}Pr(n_i|f(u))$
特征空间中的对称性。源节点和邻域节点在特征空间中彼此具有对称效应。对条件似然进行建模，每个源-邻域节点对作为由其特征的点积参数化的softmax单元：
$Pr(n_i|f(u))=\frac{exp(f(n_i)·f(u))}{\sum_{v∈exp(f(v)·f(u)}}$

通过上述假设，目标函数可简化为
$max_f \quad \sum_{u∈V}\bigg[ -logZ_u + \sum_{n_i∈N_S(u)}f(n_i)·f(u) \bigg]$

Classic search strategies

在这里插入图片描述

论文将源节点的邻域采样问题视为一种局部搜索形式。对于上图中的源结点u，我们的目标是生成（采样）其邻域 $N_S(u)$ 。为了采样策略的公平，将邻域 $N_S(u)$ 的大小限制为k个节点，然后为单个节点u采样多个集。通常，生成k个节点的邻域 $N_S$ 有两种极端采样策略：

Breadth-first Samping（BFS）
Depth-first Samping（DFS）

BFS体现了网络结构的微观等效性；

DFS体现了网络结构的宏观等效性；

node2vec

Random Walks（随机游走）

通常，给定一个源结点u，游走长度固定为 $l$ , $c_i$ 表示游走的第i个节点，令初始节点为 $c_0=u$ ，节点 $c_i$ 由以下分布生成：
$P(c_i=x|c_{i-1}=v)=\begin{cases} \frac{π_{vx}}{Z},if(v,x)∈E \\ 0, otherwise \end{cases}$
其中 $π_{vx}$ 是节点v和x之间的非归一化转移概率，Z是归一化常数。

Search bias α（有偏搜索α）

在这里插入图片描述

带有两个参数p和q的二阶随机游走，考虑一个游走，它刚刚遍历了边（t，v），现在位于图中节点v。步行现在需要决定下一步，此时评估从v开始的边**（v，x）上的转移概率 $π_{vx}$ 。将非归一化转移概率设置为 $π_{vx}=αpq(t,x)·w_{vx}$ ，其中
$α_{pq}(t,x)=\begin{cases} \frac{1}{p}, \quad if \quad d_{tx}=0 \\ 1, \quad if \quad d_{tx} = 1\\ \frac{1}{q}, \quad if \quad d_{tx} = 2 \end{cases}$
$d_{tx}$ 表示节点t和x之间的最短路径距离。且 $d_{tx}$ 必须是{0,1,2}**之一。参数p和q控制步行探索和离开起始节点u的邻域的速度。

Return parameter, p：参数p控制在步行中立即重新访问节点的可能性。将其设置为较高的值 $> m a x (q, 1)$ 可确保我们在接下来的两个步骤中不太可能对已经访问过的节点进行采样（除非步行中的下一个节点没有其他邻居）。该策略鼓励适度探索并避免采样中的2跳冗余。另一方面，如果p较低 $< m i n (q, 1)$ ，它将导致使步行回溯一步，这将使步行保持“本地”靠近起始节点u。