[人工智能] 【推荐系统论文阅读】基于强化学习的推荐模拟用户反馈

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

[人工智能]【推荐系统论文阅读】基于强化学习的推荐模拟用户反馈

Article

作者：Xiangyu Zhao, Long Xia, Lixin Zou, Dawei Yin, Jiliang Tang
文献题目：基于强化学习的推荐模拟用户反馈
文献时间：2019
文献链接：https://arxiv.org/abs/1906.11462

摘要

随着强化学习 (RL) 的最新进展，人们对将 RL 用于推荐系统产生了巨大的兴趣。然而，直接训练和评估新的基于 RL 的推荐算法需要在真实系统中收集用户的实时反馈，这既费时又费力，并且可能会对用户体验产生负面影响。因此，它需要一个可以模拟真实用户行为的用户模拟器，我们可以在其中预训练和评估新的推荐算法。在动态系统中模拟用户的行为面临着巨大的挑战：
- (i) 下划线项目分布复杂，并且
- (ii) 每个用户的历史记录是有限的。
  在本文中，我们开发了一个基于生成对抗网络 (GAN) 的用户模拟器。具体来说，生成器捕捉用户历史日志的下划线分布，生成真实日志，可以认为是真实日志的扩充；而鉴别器不仅可以区分真假日志，还可以预测用户的行为。基于真实世界电子商务数据的实验结果证明了所提出的模拟器的有效性。

背景

随着最近强化学习 (RL) 的巨大发展，人们越来越关注将 RL 应用于推荐。基于 RL 的推荐系统将推荐过程视为用户和推荐代理（RA）之间的顺序交互。它们旨在自动学习最佳推荐策略（策略），在没有任何特定指令的情况下最大化用户的累积奖励。基于强化学习的推荐系统可以实现两个关键优势：
- (i) 推荐代理可以根据用户在用户代理交互过程中的实时反馈不断学习他们的推荐策略；和
- (ii) 最优策略的目标是最大化用户的长期回报（例如推荐会话的总收入）。
然而，在动态推荐环境中模拟用户的行为（反馈）是非常具有挑战性的。实际推荐系统中有数百万个项目。因此，在历史日志中，推荐项目序列的下划线分布广泛且极其复杂。为了学习一个强大的模拟器，它通常需要大规模的历史日志作为来自每个用户的训练数据。尽管通常可以使用大量历史日志，但每个用户可用的数据相当有限。
为了解决上述两个挑战，我们提出了一个模拟器 (RecSimu)，用于基于生成对抗网络 (GAN) 的基于强化学习的推荐。

主要贡献

我们引入了一种原理性方法来捕获历史日志中推荐项目序列的下划线分布，并生成真实的项目序列；
- 我们提出了一个用户行为模拟器 RecSimu，可用于模拟环境以预训练和评估基于 RL 的推荐系统；和
- 我们根据真实世界的数据进行实验，以证明提议的模拟器的有效性并验证其组件的有效性。

问题描述

遵循图 2 所示的一个常见设置，我们首先正式定义基于强化学习的推荐，然后基于此设置提出我们旨在解决的问题。在这种情况下，我们将推荐任务视为推荐系统（代理）和用户（环境 E）之间的顺序交互，并使用马尔可夫决策过程（MDP）对其进行建模。它由一系列状态、动作和奖励组成。通常，MDP 涉及四个元素 $(S, A, P, R)$ ，下面我们将介绍如何设置它们。请注意，还有其他设置，我们将对其进行进一步调查作为未来的一项工作。
- 状态空间 $S$ ：我们将状态 $\{ i_1,...,i_N \} \in S$ 定义为用户浏览的 $N$ 个项目的序列以及用户对每个项目的相应反馈。 $s$ 中的项目按时间顺序排序。
- 动作空间 $A$ ：从推荐系统的角度来看，动作 $\in A$ 被定义为向用户推荐一组项目。不失一般性，我们假设每次推荐系统向用户推荐一个项目，但可以直接将此设置扩展到推荐更多项目。
- 奖励 $R$ ：当系统根据状态 $s$ 采取动作 $a$ 时，用户将浏览推荐的项目并提供她对该项目的反馈。在本文中，我们假设用户可以跳过、点击和购买推荐商品。然后推荐系统将仅根据反馈的类型获得奖励 $r (s, a)$ 。
- 状态转移概率 $P$ ：状态转移概率 $p (s^{'} ∣ s, a)$ 定义为执行动作 $a$ 时状态从 $s$ 转移到 $s^{'}$ 的概率。我们假设状态转换是确定性的：我们总是从 $s$ 中删除第一项 $i_1$ 并在 $s$ 的底部添加动作 $a$ ，即 $s' = \{ i_2,..., i_N , a \}$ 。
使用上述定义和符号，在本文中，我们的目标是构建一个模拟器，根据从用户的浏览历史中学习到的用户偏好来模仿用户对推荐项目的反馈（行为），如图 2 所示。换句话说，模拟器旨在模仿奖励函数 r(s, a)。更正式地说，模拟器的目标可以正式定义如下：给定一个状态-动作对 $(s, a)$ ，目标是找到一个奖励函数 $r (s, a)$ ，它可以准确地模仿用户的行为。

实验

在本节中，我们进行了大量实验，以使用来自电子商务网站的真实数据集来评估所提议模拟器的有效性。我们主要关注两个问题：
- (1) 与用于预测用户行为的最先进基线（鉴别器）相比，所提出的模拟器的性能如何；和
- (2) 与代表性推荐算法相比，生成器的性能如何。我们首先介绍实验设置。然后我们寻求以上两个问题的答案。最后，我们研究了重要参数对所提出框架性能的影响。

实验设置

我们在 2018 年 7 月来自一家真实电子商务公司的数据集上评估我们的方法。我们随机收集了 272,250 个推荐会话，每个会话都是一系列项目-反馈对。过滤出出现次数少于 5 次的项目后，剩下 1,355,255 个项目。对于每个会话，我们使用前 $N$ 个项目和相应的反馈作为初始状态，第 $N + 1$ 个项目作为第一个动作，然后我们可以按照第 1 节中定义的 MDP 收集一系列（状态，动作，奖励）元组。我们从所有会话中收集最后的（状态、动作、奖励）元组作为测试集，同时使用其他元组作为训练集。
在本文中，我们利用用户浏览的 $N = 20$ 个项目和用户对每个项目的相应反馈作为状态 $s$ 。用户嵌入(item-embedding) $e_n$ 的维度是 $∣ E ∣ = 20$ ，动作表征 $F_n$ 的维数为 $∣ F ∣ = 10$ （ $f_n$ 是一个二维的 one-hot 向量：当反馈为负时 $f_n = [1, 0]$ ，而当反馈为正时 $f_n = [0, 1]$ ）。 discriminator 的输出是一个 $4 (K = 2)$ 维的 logits 向量，每个 logit 分别代表 $r e a l ? p o s i t i v e$ ， $r e a l ? n e g a t i v e$ ， $f a k e ? p o s i t i v e$ 和 $f a k e ? n e g a t i v e$ ：
其中 $r e a l$ 表示推荐项目是从历史日志中观察到的； $f a k e$ 表示推荐的物品是由生成器产生的； $p o s i t i v e$ 表示用户点击/购买了推荐商品； $n e g a t i v e$ 表示用户跳过推荐的项目。请注意，虽然我们只模拟了两种类型的用户行为（即积极和消极），但可以直接使用更多类型的行为来扩展模拟器。 AdamOptimizer应用于优化，Generator和Discriminator的学习率为0.001，batch-size为500。RNN的隐藏大小为128。对于提出的框架的参数，如 $\alpha$ ， $\beta$ 和$\gamma$，我们选择他们通过交叉验证。相应地，我们还对基线进行参数调整以进行公平比较。我们将在以下小节中讨论有关建议模拟器的参数选择的更多详细信息。
在测试阶段，给定一个状态-动作对，模拟器将预测用户对动作的反馈类别（推荐项目），然后将预测与从历史日志中观察到的真实反馈进行比较。对于这个分类任务，我们选择常用的 $F 1 ? s c o r e$ 作为度量，它是一个结合了精度和召回率的度量，即精度和召回率的调和平均值。此外，我们利用 $p_{model}(r = l_{rp}|s, a)$ （即用户对真实推荐项目提供正反馈的概率）作为分数，并使用 $A U C$ （ROC 曲线下的面积）作为度量来评估表现。

整体性能对比

为了回答第一个问题，我们将提议的模拟器（鉴别器）与以下最先进的基线方法进行比较：
- Random：这个baseline 随机给每个推荐的item 分配一个score ∈ [0, 1]，并使用0.5 作为阈值来将item 分为正负；该分数也用于计算 AUC。
- LR：逻辑回归（ Logistic Regression）使用逻辑函数通过最小化损失 $E_{\frac{1}{2}}{(h_{\theta}(x) ? y)}^2$ 来对二元因变量建模，其中 $h_{\theta}(x) =\frac{1}{{1+e^{-w^{T}x}}}$ ；我们将所有 $i_n = (e_n, f_n)$ 为第 $i$ 个项目的特征向量，如果反馈为正，则设置基本事实 $y = 1$ ，否则 $y = 0$ 。
- GRU：该基线使用带有 GRU 的 RNN 来预测用户对推荐项目的反馈类别。每个单元的输入 $i_n = (e_n, f_n)$ 中，RNN 的输出是用户偏好的表示，比如说 $u$ ，然后我们将 $u$ 与推荐项目的嵌入连接起来，并利用一个 $s o f t m a x$ 层来预测用户对此项目的反馈类别。
- GAN：这个基线基于生成对抗网络（Goodfellow et al. 2014），其中生成器采用状态-动作对（浏览历史和推荐项目）并输出用户对项目的反馈（奖励），而判别器采用（状态，动作，奖励）元组并区分真实元组（其奖励是从历史日志中观察到的）和假元组。请注意，我们还使用带有 GRU 的 RNN 来捕获用户的顺序偏好。
- GAN-s：此基线是 GAN 的监督版本（Luc et al. 2016），其中设置与上述 GAN 基线相似，同时在生成器的输出上添加了监督组件，从而最大限度地减少了真实反馈和预测反馈的差异。
结果如图 6 所示。我们进行了以下观察：

LR 的性能比 GRU 差，因为 LR 忽略了用户浏览历史中的时间序列，而 GRU 可以捕获项目序列中的时间模式和用户对每个项目的反馈。该结果表明，在学习用户的动态偏好时，捕捉用户浏览历史的顺序模式很重要。
GAN-s 的性能优于 GRU 和 GAN，因为 GAN-s 不仅受益于 GAN 框架（无监督组件）的优势，而且受益于监督组件的优势，直接最小化真实反馈和预测反馈之间的交叉熵。
RecSimu 优于 GAN-s，因为生成器模仿了生成历史日志的推荐策略，生成的日志可以看作是真实日志的扩充，解决了数据限制的挑战；而鉴别器可以区分真实日志和生成日志（无监督组件），同时预测用户对推荐项目的反馈（监督组件）。换句话说，RecSimu 同时利用了无监督和监督组件。 RecSimu 模型组件的贡献将在以下小节中研究。

总而言之，所提出的框架优于最先进的基线，这验证了其在模拟用户在推荐任务中的行为的有效性。

生成器效率

我们提出的生成器旨在根据用户的浏览历史（状态）生成不可区分的日志（动作）。换句话说，它模仿了生成历史日志的推荐系统的推荐策略。为了回答第二个问题，我们基于本文使用的历史日志训练了几种具有代表性的推荐算法，并比较了与历史日志的性能差异。为了评估推荐算法的性能，我们选择 MAP 和 NDCG 作为指标。我们将提出的生成器与以下代表性推荐方法的生成器进行比较：
- FM: Factorization Machines (Rendle 2010) 结合了 SVM 和分解模型的优点。与矩阵分解相比，可以使用维度参数对高阶交互进行建模。
- W&D：该基线是一个广泛而深入的模型，用于联合训练具有嵌入的前馈神经网络和具有通用推荐系统特征转换的线性模型。
- GRU4Rec：GRU4Rec 使用带有 GRU 单元的 RNN 根据点击/订购历史预测用户接下来将点击/订购什么。
结果如表 1 所示。与基线相比，可以观察到 RecSimu 的生成器可以实现与历史日志最相似的性能。该结果验证了生成器和鉴别器之间的竞争可以增强生成器在历史日志中捕获复杂项目分布的能力，超过监督推荐算法。

成分分析

为了研究生成器和鉴别器中的组件如何对性能做出贡献，我们通过定义 RecSimu 的以下变体来系统地消除模拟器的相应组件：
- RecSimu-1：这个变体是模拟器的简化版本，除了判别器的输出是一个3维向量 $output = [l_{rp}, l_{rn}, l_f ]$ ，其中每个 logit 分别代表 $r e a l ? p o s i t i v e$ , $r e a l ? n e g a t i v e$ 和 $f a k e$ ，即它不会区分生成的正负项。
- RecSimu-2：在这个变体中，我们评估监督组件 ${L_G}^{sup}$ 的贡献，因此我们通过设置 $\beta = 0$ 来消除 ${L_G}^{sup}$ 的影响。
- RecSimu-3：这个变体是为了评估生成器和鉴别器之间竞争的有效性，因此，我们从损失函数中删除了 ${L_G}^{unsup}$ 和 ${L_D}^{unsup}$ 。
结果如图7所示。可以观察到：

RecSimu 的性能优于 RecSimu-1，这表明区分生成的正负项可以提高性能。这也验证了生成器生成的数据可以被视为现实世界数据的增强，从而解决了数据限制挑战。
RecSimu-2 的性能比 RecSimu 差，这表明监督组件有助于生成器生成更多不可区分的项目。
RecSimu-3 首先训练一个生成器，然后使用真实数据和生成数据训练判别器；而 RecSimu 迭代更新生成器和鉴别器。 RecSimu 优于 RecSimu-3，这表明生成器和判别器之间的竞争可以增强生成器（捕获复杂数据分布）和判别器（对真假样本进行分类）的能力。

参数灵敏度分析

我们的方法有两个关键参数，即
- (1) $N$ 控制状态的长度，和
- (2) $\lambda$ 控制公式(8) 中第二项的贡献，它将生成的项目分为正类或负类。
为了研究这些参数的影响，我们研究了所提出的框架 RecSimu 如何在一个参数的变化下工作，同时固定其他参数。结果如图 8 所示。我们有以下观察结果：

图 8 (a) 展示了 $N$ 的参数敏感性。我们发现随着 $N$ 的增加，性能有所提高。具体来说，性能先显着提升，然后变得相对稳定。这个结果表明引入更长的浏览历史可以提高性能。
图 8 (b) 显示了 $\lambda$ 的灵敏度。当 $\lambda= 0.3$ 时，模拟器的性能达到峰值。换句话说，方程（8）中的第二项确实提高了模拟器的性能；然而，性能主要取决于等式（8）中的第一项，它将真实项目分为正类和负类。

结论

在本文中，我们提出了一种基于生成对抗网络 (GAN) 框架的新型用户模拟器 RecSimu，它根据用户的历史日志对真实用户的行为进行建模，并解决了两个挑战：
- (i) 推荐项目分布在用户的历史日志中很复杂，以及
- (ii) 来自每个用户的标记训练数据是有限的。
基于 GAN 的用户模拟器可以自然地解决这两个挑战，并可用于在新的推荐算法上线之前对其进行预训练和评估。具体来说，生成器捕获用户历史日志的下划线项目分布，并生成不可区分的假日志，作为真实日志的扩充；鉴别器能够根据用户的浏览日志预测用户对推荐项目的反馈，这利用了监督和非监督学习技术。为了验证所提出的用户模拟器的有效性，我们基于现实世界的电子商务数据集进行了广泛的实验。结果表明，所提出的用户模拟器可以提高推荐任务中的用户行为预测性能，并且比代表性基线具有显着的余量。
有几个有趣的研究方向。首先，为了泛化，在本文中，我们不考虑连续动作之间的依赖关系，换句话说，我们将一个推荐会话拆分为多个独立的状态-动作对。最近的一些模仿学习技术，例如逆强化学习和生成对抗性模仿学习，将一系列状态-动作对视为一个完整的轨迹，并且先验动作可能会影响后验动作。我们将在未来的一项工作中介绍这个想法。其次，用户历史记录中的正面（点击/购买）和负面（跳过）反馈极不平衡，这使得收集足够的正面反馈数据变得更加困难。在本文中，我们利用传统的上采样技术来生成更多的正反馈训练数据。未来，我们会考虑利用 GAN 框架自动生成更多的正反馈数据。最后，用户跳过项目的原因有很多，例如（1）用户确实不喜欢该项目，（2）用户没有仔细查看该项目并错误地跳过它，（3）存在更好的项目附近位置等。这些原因导致更难预测跳跃行为。因此，我们将引入可解释的推荐技术来确定用户跳过项目的原因。