摘要
传统的推荐模型通常只使用一种用户-项目交互,但面临着严重的数据稀疏性或冷启动问题。使用多种类型的用户-项目交互,如点击和收藏,可以作为一种有效的解决方案。早期对多行为推荐的努力未能捕捉到行为对目标行为的不同影响强度。它们还忽略了多行为数据中隐含的行为语义。这两个限制都使得数据没有被充分利用来改进目标行为上的推荐性能。
在这项工作中,我们通过创新地构建一个统一的图来表示多行为数据,并提出了一个新的模型MBGCN(多行为图卷积网络)来解决这个问题。通过用户-项目传播层学习行为强度,通过项目-项目传播层捕获行为语义,MBGCN可以很好地解决现有工作的局限性。在两个真实数据集上的经验结果验证了我们的模型在利用多行为数据方面的有效性。在两个数据集上,我们的模型平均比最佳基线值高出25.02%和6.51%。对冷启动用户的进一步研究证实了我们所提出的模型的可行性。
1 介绍
个性化推荐系统已成为缓解当今广泛的信息超载问题。协作过滤(CF)[29]是构建推荐模型的范式,它可以学习用户的兴趣,并从收集的用户行为数据(历史反馈,如购买)中估计偏好。传统的CF模型[17,20,21,23,27]是针对单一类型的行为设计的,这在大多数情况下与平台利润直接相关,如电子商务平台中的购买行为;然而,在现实应用中,这可能会导致严重的冷启动或数据稀疏性问题。例如,在电子商务网站上,只有购买行为的CF模型,很难为没有历史购买记录的新用户生成好的推荐。但好消息是,这些平台可以收集一些容易发生的其他类型的行为,比如点击和浏览。换句话说,推荐系统应该有能力利用其他类型的行为,即辅助行为,来帮助预测用户未来对目标行为的交互,这就是多行为推荐。
现有的研究[3,7,10,22,26,31,33]从两个方面来处理这一任务。 第一类将多行为数据利用到采样过程中,并建立多采样对来加强模型学习过程[22,26,27]。例如,MCBPR[22]假设行为之间存在一个重要性顺序,它通过构建具有一种积极行为和另一种较弱行为的采样对来扩展BPR[27]。[26]进一步扩展了这一点,设计了一种更复杂的基于多行为数据的训练对采样方法。 第二类则试图设计模型来捕获多行为信息[3,10,31,33]。例如,基于矩阵分解的模型[31]同时对多个行为矩阵进行分解;[33]设计了一种多目标优化方法。[3,10]分别提出了一个多任务学习的深度模型,并假设一个人为给定的行为间强度顺序。
尽管这些工作很有效,但这些工作也有两个限制:
-
多种类型的行为的强度没有得到充分的利用。一方面,忽略建模行为的强度,会使一些有用的信号丢失。例如,与点击行为相比,加购行为显然是一个更强的信号;因此,准确地建模加购与购买之间的密切关系可以提高性能。另一方面,对于目标行为,粗略地将所有辅助行为视为较弱的行为是不合理的。例如,在电子书推荐系统中,与朋友分享一本书比购买一本书反映出更强的用户偏好。简而言之,多反馈推荐模型需要去来揭示并进一步利用数据中不同行为类型的不同强度。 -
不考虑多类型行为的语义。行为的语义可以理解为一种行为类型的意义,或者换句话说,是用户-项目交互在特定行为类型下发生的原因。从另一个角度来看,每种行为类型下的交互项目之间应该存在一些共同的特征或特殊的关系。例如,当用户在电子商务网站上点击/浏览产品时,共同点击/浏览的产品可能是可替换的(如iPhone和谷歌Pixel);当涉及到购买时,这些共同购买的产品可能是互补的(如iPhone和AirPods)。当我们没有项目的附加信息,如类别或品牌时,项目间的关系可以作为解决方案来揭示协作推荐任务的语义。(理解:所有用户的同一特定类型交互的所有用户。为什么用户点击/浏览了这些商品呢,收藏了那些商品呢,这每个特性交互行为下的商品间存在关系,所以才会产生这样的现象。)
简而言之,现有方法的局限性在于它们不能彻底解决上述两个挑战:基于用户对项目的强度建模和基于项目对项目的多类型行为的语义建模。
为了解决这些问题,我们提出基于多种类型的行为数据构建一个统一的异构图。将用户/项目表示作为节点,不同类型的行为表示为图的多种类型的边,基于用户到项目的强度和基于项目到项目的语义问题转向了建模异构边和项目-用户-项目元路径。我们进一步提出了名为多行为图卷积网络(MBGCN)的解决方案,以利用图神经网络在学习复杂边和图上高阶连接性的强大力量来解决上述两个挑战。
更具体地说,我们构造了一个由两种节点(用户和项目)和多种类型的边组成的异构图,其中连接用户节点和项目节点的边指的是一种特定类型的用户-项目反馈。首先,这种图结构的交互数据没有对偏好强度设置任何先验约束或假设。为了捕捉不同行为的强度,我们为每个行为提出了具有行为-感知能力的项目-用户的传播层,以将相邻的项目节点的嵌入传播到用户节点。这使得该模型能够区分不同的辅助行为的不同强度。我们设计了项目到项目的传播层,对项目节点的嵌入和共同作用的相邻(二阶)项目进行操作,这有助于捕捉各种行为的项目相似性的不同CF语义,增强对项目嵌入的学习。通过这些设计,我们的MBGCN方法有效地解决了主要的挑战,并有助于利用辅助行为来更好地推荐目标行为。
综上所述,本工作的主要贡献如下:
- 我们提出构造一个异构图来表示多反馈数据,且对每一种行为的偏好强度没有任何约束。
- 对于所构造的图,我们提出了一个基于图卷积网络的推荐模型。一方面,我们设计了行为感知的用户-项目嵌入传播层来捕获不同行为的不同影响;另一方面,我们设计了项目之间的嵌入传播层来建模项目之间的相似性,这反映了不同行为的各种语义。
- 我们在两个真实世界的数据集上进行了广泛的实验。实验结果表明,与最佳性能基线相比,该模型能有效地将推荐性能分别提高了25.02%和6.51%。对冷启动用户的进一步研究验证了我们的模型的高应用价值。
本文的其余部分如下:首先我们在第2节中将问题公式化,然后在第3节中提出我们提出的方法。在进行了第4节中的实验后,我们回顾了第5节中的相关工作。最后,我们在第6节中总结了论文。
2 问题公式化
在线信息系统的真实场景中,用户可以以多种方式与平台提供的项目进行互动:点击、收藏、购买、分享等。在各种类型的用户项目交互中,总有一种类型直接决定了平台的利润。推荐系统总是针对该单一类型的行为而设计。例如,电子商务推荐系统总是对购买行为进行设计,而应用程序推荐系统则针对下载行为进行设计。如引言中所述,由于数据的稀疏性和冷启动问题,单行为推荐可能会获得较差的性能。在这项工作中,我们的目标是通过利用其他类型的反馈来为目标行为设计一个推荐模型。
请注意,对行为的时间顺序或强度顺序没有约束。换句话说,行为t-1不必在t之前发生,并且行为
y
u
,
i
t
?
1
y_{u,i}^{t-1}
yu,it?1?=1不需要反映比
y
u
,
i
t
y_{u,i}^{t}
yu,it?=1更弱或更强的用户偏好。那么,多行为推荐的任务可以表述为: 输入:T种行为的用户项交互数据,{Y1、Y2、…,YT}。 输出:一个推荐模型,它估计了用户u在第T种行为下与项目i交互的概率,即目标行为。
3 方法
现在我们来讨论我们的方法的细节,其体系结构如图2所示。我们的模型有四个重要的组成部分:
- 1)共享层,为用户和项目嵌入提供初始化;
- 2)用户-项目传播层:来学习每个行为的强度,同时基于多行为的用户-项目交互提取协同过滤信号;
- 3)项目-项目传播层:来细化项目的特殊关系,或者换句话说,基于行为类型的行为语义;
- 4)联合预测模块。
3.1 统一异构图
我们的目标是使用各种行为来为目标用户执行推荐。因此,建立了一个统一的异构图来建模所研究的问题。输入交互数据由一个无向图G=(V,E)来表示,其中V由用户节点u∈U和项目节点i∈E组成,边E包含不同的行为的用户-项目交互,即
(
u
,
i
)
t
(u,i)_t
(u,i)t?,t∈
N
r
N_r
Nr?,
N
r
N_r
Nr?是用户和项目之间发生的所有行为类型。当
y
u
,
i
t
y_{u,i}^{t}
yu,it?=1时,将会有一个边
(
u
,
i
)
t
(u,i)_t
(u,i)t?建立。我们使用不同类型的边来表示不同的行为,这样就可以提取出用户和项目之间的基于行为的信息。此外,基于用户的协同行为在项目之间建立了一些元路径,以更好地提取项目的相关性。例如,如果许多用户同时购买iPhone和AirPods,那么在iPhone节点和AirPods节点之间就会有一个项目-购买-用户-购买-项目元路径。由于元路径是基于用户的共同行为而构建的,所以元路径类型的数量等于行为类型的数量。
3.2共享嵌入层
为了确保我们的方法的可扩展性,我们使用一个one-hot向量作为输入来描述一个用户或一个项目的ID。我们在这里使用矩阵乘法来获得的用户(项目)的one-hot向量如下: 其中,
I
D
k
U
{ID}^U_k
IDkU?和
I
D
j
V
ID^V_j
IDjV?分别是用户
u
k
u_k
uk?和项目
i
j
i_j
ij?的one-hot向量。值得注意的是,矩阵P和矩阵Q中的嵌入作为用户和项目的初始化特征,可以看作是图神经网络[19]框架中每个用户和项目的输入特征。
3.3 具有行为感知的用户-项目传播
为了捕获基于多行为的CF信号,我们建立了一个在用户和项目之间的消息传递架构。在嵌入传播中,对每个节点,将其相邻节点的信息融合到嵌入中,这可以加强嵌入学习,提高预测效果。当我们完成任务时,我们设计了一种特定的用户-项目传播方法,以更好地利用多行为信息。我们的用户-项目传播体系结构由图3和图4所示的两个组件组成:项目到用户的嵌入传播模块,它自动学习每个行为的重要性,并为用户聚合时在不同行为下交互的项目分配不同的权重;还有一个用户到项目的嵌入传播模块,它为项目聚合邻居用户信息。
3.3.1 用户嵌入传播
我们的主要思想是根据行为类型来考虑项目对用户偏好的影响:行为内在强度和交互稀疏性。就内在强度而言,不同的行为对目标行为的贡献是直观的。然而,我们认为,每种行为的重要性,每种行为对目标行为的贡献不能被人为地衡量,应该由模型本身来学习。同时,还应考虑到数据的稀疏性。事实是,尽管目标行为在所有行为中是最重要的,但当特定用户和所有项目之间的目标行为交互很少时,很难仅根据目标行为来挖掘用户的兴趣。因此,当我们有一些目标行为时,其他行为可能会发挥更重要的作用。基于这两个关键因素,我们设计了一种基于行为稀疏性的项目到用户嵌入传播机制如下。
用户行为传播权重计算
由于不同的行为对目标行为的贡献不同,我们为每个行为分配一个权重,即行为t的
w
t
w_t
wt?。为了将行为的重要性和行为的稀疏性融合在一起,我们为用户u的特定行为t定义了传播权重,表示为
α
u
t
α_{ut}
αut?,如下: 其中
w
t
w_t
wt?是行为t的行为重要性权重,对所有用户都是相同的;
n
u
t
n_{ut}
nut?是用户u操作的行为t的数量,根据用户的不同而不同。具体来说,更大的w代表更高的重要性。
是用户u总的交互,
α
u
t
α_{ut}
αut?是用户u的t行为的最终传播权重,将被用在传播层中。
请注意,
w
t
w_t
wt?是由模型学习的,因此每个模型的行为可以自动学习,而不是让我们为每个行为分配重要性。
基于行为的项目邻居聚合
对于每个用户来说,不同的行为对目标行为的贡献是不同的,但直观地来看,在相同行为下交互的项目反映了用户相似的偏好强度。因此,将与用户具有相同行为交互的项目聚合在一起,为每个行为获得一个嵌入,用户u在t行为下的嵌入
p
u
,
t
(
l
)
p^{(l)}_{u,t}
pu,t(l)?,定义如下: 请注意,聚合函数可以是一个函数,如简单的均值函数、带采样的均值函数、最大池化等。我们在这里使用简单的平均函数,其他函数将留在未来探索。
3.3.2 项目嵌入传播
在上面的项目到用户嵌入传播层中,我们基于用户主观进行的行为这一事实,为不同的行为聚合嵌入分配不同的权重,使在不同行为下交互的项目应该反映出不同的用户特征。但是,对于用户到项目的传播情况并不相同,因为项目的特性是静态的。不考虑行为的类型不同,我们假设不同的用户对一个项目有相同的贡献。因此,下面显示了一种用户到项目的传播方法,为下一层项目嵌入
q
i
(
l
+
1
)
q_i^{(l+1)}
qi(l+1)?聚合用户嵌入
p
j
(
l
)
p^{(l)}_j
pj(l)?如下: 虽然在用户到项目的传播中没有考虑行为类型,但说多行为不能被用于项目特征学习是不合适的。事实上,项目相关性,或换句话说,行为语义可以从多行为数据中学习到 在第3.4节中,我们将从项目到项目的角度来学习。
3.4 项目相关性感知项目-项目传播
如上所述,从用户到项目传播的角度来看,利用多行为中反映的项目信息是不合理的;我们需要设计一种更好的项目信息提取方法。在之前的工作中,[3,10]忽略了接近多行为推荐中是不同行为有不同语义,或者换句话说,在行为中反映了项目的相关性。由用户相互交互的项目可能有特殊的连接。因此,根据行为类型,将项目的信息扩散到相互交互的项目中是合理的。(认为:同种行为类型交互的项目之间有一定的相关性,因为可以据此构建项目-项目关系,进一步根据项目-项目去传播项目信息)。
根据以上的讨论,我们设计了一个基于行为的项目到项目的传播层来获取行为语义。我们将聚合与项目i一样的共同t行为下交互的项目j的嵌入
s
j
t
(
l
)
s^{(l)}_{jt}
sjt(l)?(项目i与j在t类型下都被交互),得到下一层嵌入
s
i
t
(
l
+
1
)
s^{(l+1)}_{it}
sit(l+1)?。通过这种机制,与项目i共同行为的项目的特征将被聚合到i的嵌入中,这有助于更好的嵌入学习和最终预测。
3.5 联合预测
通过L层传播后,我们得到了多个表示,即用户u的{
p
u
(
0
)
p_u^(0)
pu(?0),…,
p
u
(
L
)
p_u^(L)
pu(?L)},项目i的{
q
i
(
0
)
q_i^(0)
qi(?0),…,
q
i
(
L
)
q_i^(L)
qi(?L)}和{
s
i
t
(
0
)
s^{(0)}_{it}
sit(0)?,…,
s
i
t
(
L
)
s^{(L)}_{it}
sit(L)?},t∈
N
r
N_r
Nr?。在不同的层中获得的表示强调了从不同阶的邻居接收到的消息。更具体地说,
p
u
(
0
)
p_u^(0)
pu(?0)包含用户u本身的信息,
p
u
(
1
)
p_u^(1)
pu(?1)包含由用户u交互的项目信息,即一阶邻居,
p
u
(
k
)
p_u^(k)
pu(?k)包含用户u的k阶邻居信息。对于最终的预测,来自不同类型的邻居的信息都是很重要的。因此,我们将它们连接在一起,以获得用户和项目的最终嵌入: 其中,||是连接操作。通过这样做,我们不仅可以用来自不同层的信息来丰富用于预测的最终嵌入,而且还可以通过调整L来控制传播的范围。
由于用户-项目传播层直接从用户-项目交互中学习用户嵌入
p
u
?
p_u^*
pu??和项目嵌入
p
i
?
p_i^*
pi??,我们可以用
p
u
?
p_u^*
pu??和
p
i
?
p_i^*
pi??[27,37]计算基于用户的分数,称为基于用户的分数。此外,它从项目-项目间传播中学习到的
s
i
t
?
s^*_{it}
sit??}包含了项目相关性信息,可用于计算目标项目与用户交互的项目的得分,即基于项目的得分。
3.5.1 基于用户的协同过滤分数
我们在这里使用简单的内积交互函数来计算基于用户-项目传播的分数,如下: 值得注意的是,这里使用的用户嵌入包含了自动学习的行为强度信息。
3.5.2 基于项目的协同过滤分数
如上所述,在多行为推荐中可能存在行为语义,用户对两个项目的共同行为可能意味着这两个项目之间的相关性,而项目之间的相关性可能会影响用户的行为(购买或不购买)。因此,这里使用了一个评分机制,以挖掘行为语义,并计算目标项目i和用户u交互的项目之间的相关性分数 y2(u,i)。将从不同的行为中计算出的项目相关性得分相加,得到最终的相关性得分。
3.5.3 合并分数
基于用户的CF分数和基于项目的CF分数与一个超参数λ结合在一起,调整最终评分中基于用户的评分和基于项目的评分的权重如下: 通过将这两个分数相加,最终的分数不仅提取了用户和项目之间的协同过滤信号,而且还考虑了行为语义。(理解:用户u项目i嵌入 + 当前项目i用户u所交互过的项目 之间的相关性)
3.6 模型训练
为了学习参数,我们使用BPR损失对模型进行优化,这在推荐系统[27,37,43]中广泛使用。它强调了观察到的和未观察到的用户-项目交互之间的相对顺序,认为观察到的交互是用户偏好学习的指导,应该比未观察到的交互分配更高的预测分数。 虽然今天的深度学习模型具有很强的表示能力,但它们通常会出现过拟合的问题。在[2,37]最近的工作之后,我们建议使用两种广泛使用的dropout方法:对一些用户节点和项目节点进行边dropout和节点dropout。边dropout以p的概率随机删除一些边,而节点dropout随机删除一个特定的节点并删除其所有边。(理解:对数据进行预处理时候做)
4. 实验
在本节中,我们在两个真实的电子商务数据集上进行实验,以评估我们提出的MBGCN方法。我们的目的是回答以下四个研究问题。
- RQ1:引入多行为数据是否可以提高推荐性能?与旨在从多行为数据中学习的最先进的模型相比,我们的方法表现如何?
- RQ2:不同的项目对用户的传播权重和项目对用户的传播方法的设置如何影响我们的模型的有效性?
- RQ3:MBGCN如何缓解冷启动的问题?
- RQ4:模型的超参数(λ、边dropout和节点dropout)如何影响我们模型的最终性能?
4.1 实验设置
4.1.1数据集
为了评估MBGCN的性能,我们在两个真实的电子商务数据集上进行了实验:天猫和贝贝。我们总结了表1中这两个数据集的统计数据。
- 天猫这是一个从中国最大的电子商务平台天猫收集的开放数据集。该数据集中有41738个用户和11953个项目,它们有四种类型的行为:购买、加购、收集和点击。
- Beibei这是中国最大的婴儿产品电子商务平台。该数据集中有21716个用户和7977种行为,包括购买、加购和点击。
4.1.2 评估指标
为了评估每个模型的性能,我们使用了两个广泛使用的指标,即Recall和NDCG,定义如下
- 召回@K测量在前K排名列表中成功推荐的测试项目的比例。
- NDCG@K给在前K排名列表中排名较高的人分配更高的分数,这强调了测试项目的排名应该尽可能地更高。
4.1.3 基线
为了证明我们的MBGCN模型的有效性,我们将它与几种最先进的方法进行了比较。基线分为两类:仅使用目标行为记录的单一行为模型和考虑各种行为的多行为模型。
单行为模型:
- MF-BPR[27] BPR是一种广泛使用的方法,它假设观察到的交互作用应该比未观察到的交互作用得分更高,从而优化两两损失。
- NeuMF[15]这是一种最先进的神经CF方法,它同时使用GMF和MLP来捕获用户-项目交互信号。
- GraphSAGE-OB[13]是应用最广泛的深度图神经网络模型之一,它通过嵌入传播和聚合来丰富节点与邻居信息的嵌入。这里只使用目标行为来构建用户-项二部图,我们称这个模型为GraphSAGE-OB。
- NGCF-OB[37]NGCF是一种最先进的图神经网络模型,它有一些特殊的设计,将图神经网络拟合到推荐系统中。与GraphSAGE-OB类似,这里只使用目标行为来构建用户-项目二部图。
多行为模型:
- NMTR[10]这是一个最先进的多行为推荐的深度模型。作者假设行为之间存在严格的重要性顺序,并提出了一个序列深度模型,在多任务学习框架下对每种行为类型采用NCF[15]。[3]提出了一个类似的模型,结合了NCF和多任务学习,以及另一个损失函数[16]。然而,在我们的问题中,我们并没有对行为的序列做出任何先前的假设。因此,我们只选择NMTR来进行比较。为了使其适用,我们按照原论文中规定的顺序进行排序。
- MC-BPR[22]MC-BPR是推荐系统中第一个重点利用多行为数据的论文之一。它假设不同的行为反映了用户和项目之间不同的顺序偏好,这可以作为先验知识来构建更多样化的训练对。
- GraphSAGE-MB[13]不同于GraphSAGE-OB,这里我们使用各种行为来构造用户-项二部图,不同的行为被处理为相同的,因此图中只有一种边
- NGCF-MB[37]我们使用与GraphSAGE-MB相同的方法来为NGCF-MB的图。由于NGCF使用了各种行为,模型学习到的嵌入可能具有更强的表示能力。
- RGCN[30]RGCN是图神经网络领域中第一个考虑边差别的论文。针对为不同类型的边设计了不同的传播层来捕获边信息,适合我们的多行为推荐任务。
4.1.4 参数设置
我们的MBGCN是用Pytorch实现的。所有模型的嵌入大小都固定为32,适合于模型学习嵌入[6,35]的强表示。我们使用Adam优化器[18]优化所有模型,将列车批量大小固定到2048。这里使用Xavier初始化[11]来初始化参数。对于所有基于BPR的方法,我们同时使用8个采样过程实时构建用户-项目对。当进入MCBPR时,根据原论文仔细搜索采样率。
|