开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> LARGE-SCALE CAUSAL APPROACHES TO DEBIASING POST-CLICK CONVERSION RATE ESTIMATION WITH MTL论文阅读 -> 正文阅读

[人工智能]LARGE-SCALE CAUSAL APPROACHES TO DEBIASING POST-CLICK CONVERSION RATE ESTIMATION WITH MTL论文阅读

论文名字：《LARGE-SCALE CAUSAL APPROACHES TO DEBIASING POST-CLICK CONVERSION RATE ESTIMATION WITH MULTI-TASK LEARNING 》2020，阿里和一些大学联合发表，汉语翻译为：基于多任务学习的大规模因果方法去偏转化率估计

1.摘要

CVR的估算是电子商务推荐系统中的一项重要任务。该任务在工业环境下具有挑战性，主要有两个问题:

1)用户自选择导致的选择偏差，

2)由于很少的点击事件导致的数据稀疏性。

成功的转换通常有以下顺序事件:“曝光→点击→转换”。传统的CVR估计器是在点击空间中训练的，但推理是在整个曝光空间中进行的。他们未能解释缺失数据的原因，并将其视为随机缺失。因此，他们的估计很可能与实际值有很大的偏差。此外，数据稀疏性问题也阻碍了许多具有较大参数空间的工业CVR估计。

在本文中，提出了两种principled的、高效的和高效的CVR估计方法， Multi-IPW 和 Multi-DR。所提出的模型从因果角度做CVR的估计，并解释了缺失的原因，而不是随机的。此外，本文方法基于多任务学习框架，缓解了数据稀疏性问题。在工业级数据集上的大量实验表明，我们的方法优于最先进的CVR模型。

2.现存问题

选择偏差是推荐系统中一个被广泛认可的问题[1,2,3]。例如，音乐流服务通常会推荐用户反馈积极的音乐类型(例如，喜爱、分享和购买等)，并有选择地忽略那些很少向用户展示的音乐类型。本文研究了点击后转化率(CVR)估计中存在的选择偏差。

?图1 cvr估计时的选择偏差

CVR预估是电子商务推荐系统中的一项关键任务[5,6]。一个典型的电子商务交易具有以下顺序事件:“曝光→点击→转换”[2]。cvr表示从点击到转换的概率,通常，在训练CVR模型时，我们只包括user点击的item，因为我们不知道user[7]没有点击的item的转换反馈。需要注意到：不点击一件item并不一定表明user对购买它不感兴趣。user可能会无意识地跳过他们可能感兴趣的某些商品。从图1中可以看出，曝光空间D是点击空间o的超集。在点击空间中训练传统CVR模型时，会产生选择偏差，并在整个曝光空间中进行预测(见图1)[2]。直观地说，点击空间中的数据来自于整个曝光空间，并且由用户自己的选择决定。因此，点击空间中的数据分布与曝光空间中的数据分布是不同的。这种内在的差异导致了传统CVR模型中缺少非随机数据(MNAR)和选择偏差[3,8,9,10]。

CVR估计在工业级推荐修复系统中相当具有挑战性的两个问题:

1，选择偏差:训练空间O和推理空间D中数据分布的系统性差异使传统CVR模型存在偏差[11,7,12,10]。这种偏差通常会导致性能下降。

2.数据稀疏性:这个问题发生是因为点击是相对稀少的事件(我们在生产数据集的点击率为5.2%，在公共数据集的点击率为4%)。传统的CVR模型通常只使用点击空间中的数据进行训练。因此，对于大的参数空间，训练样本的数量可能不够。在实验中，生产数据集有6亿个样本比53亿个参数，公共数据集有430万个样本比26亿个参数(见4.1节)[13,14]。

为了简化CVR估计的去偏任务，我们假设曝光空间是我们感兴趣的整个item空间(见图1)[2]。这种放松也是基于大多数物品至少暴露一次的假设。从表1可以看出，我们的数据集包含8150万个条目和115亿次曝光，即每个条目平均被曝光约150次。

为了解决CVR估计中选择偏差和数据稀疏的关键问题，采用了因果视角，并在多任务学习框架中发展了因果方法。本文提出了两种有原则的、高效的、高效的CVR估计方法，即多任务逆倾向加权估计法(Multi-IPW)和多任务双稳健估计法(Multi-DR)。我们的方法是为无偏CVR估计而设计的。它们也解释了数据稀疏性问题。

本文的主要贡献如下:

据我们所知，这是第一篇将基于ipw和dr的方法与多任务学习相结合的论文。从因果关系的角度来看，我们的目标是共同解决CVR估计中公认的问题(即选择偏差和数据稀疏性)。
我们强调，最先进的CVR模型ESMM[2]是有偏的。与现有研究不同的是，我们的方法对mar数据进行了调整，并有原则地处理了选择偏差。同时，我们给出了数学证明，证明了所提方法在理论上是无偏的。实证研究表明，我们的方法优于ESMM和几个最先进的因果模型，并证明了我们的方法在实际工业环境中的有效性。

(为什么ESMM是有偏的？)

Ma et al.[2]提出了全空间多任务模型(whole Space Multi-task Model, ESMM)来弥补转化率(conversion rate, CVR)估计中的选择偏差和数据稀疏性问题。ESMM在整个曝光空间中进行训练，将CVR任务制定为两个辅助任务，即点击率(click-through rate, CTR)和点击率转化率(click-through & conversion rate, CTCVR)估计。然而，我们认为ESMM是有偏见的。我们讨论的细节在第3.2节中介绍。(看到关键处，来了个“下回分解”..)

(因果推理有哪些方法？)

因果推理提供了一种适应数据生成过程的方法。Schnabel等人提出了一种基于ipw的估计器，用于从有偏数据中训练和评估推荐系统。如果没有准确估计倾向，基于ipw的模型可能仍然有偏差。Wang等人[15]提出了一种双鲁棒(DR)联合学习方法来估计具有MNAR的项目评级。双鲁棒估计将基于ipw的方法与估算缺失数据预测误差的imputation模型相结合。在不准确学习倾向的情况下，只要DR估计器的imputation模型是准确的，DR估计器仍然可以具有无偏性。然而，现有的基于dr的CVR估计方法并没有设计用于CVR估计，无法解决CVR估计中普遍存在的严重的数据稀疏性问题。此外，这种联合学习方法在工业环境下并不有效(见图5)。

综上所述，我们的方法与上述方法有三个方面的不同:

1)问题不同。我们开发了电子商务系统中CVR的估计方法，主要集中在评级预测[16]上。【cvr estimation和cvr rating 有什么区别？分别是什么】
2)挑战是不同的。我们设计模型来解决选择偏差和数据稀疏问题，而它们只考虑了前者(ESMM同时考虑了两者)。
3)方法不同。我们整合多任务框架与因果方法。具体来说，我们与深度神经网络同时共训练倾向模型、imputation模型和预测模型，而它们分别或交替训练这些模块，通常与线性回归或矩阵分解等模型一起训练[17,18,19,20]。我们将在第3节进一步论证我们的设计，并在第5节报告性能改进。

3.Causal CVR Estimators with multi-task learning?

到了我看不懂的地方.....先把能看懂的记录下来吧.....

3.3 A causal perspective to unbiased CVR estimation?

回想一下,选择性偏差估计来自这样一个事实:点击空间O模型训练,而暴露的预测是由空间D(见图1)。理想情况下,使用item已知的转化标签构建cvr estimators，可以去除选择偏差。

在因果推理语言中，它相当于在“do dataset”上训练CVR模型，在数据生成过程中对点击事件进行因果干预。具体来说，用户“被迫”点击曝光空间D中的每一件商品，并进一步做出购买决定。请注意，训练空间与“do dataset”中的推理空间相同。因此，选择偏差被消除了。直观上，图3中,我们也可以理解因果干预是如何消除偏差的。Z表示同时影响点击事件和转换事件的自选择因素。例如，Z可以是顾客在网上购物时考虑的购买兴趣或价格折扣。在因果推理中，我们将Z称为使CVR推理产生[24]偏差的“混淆者(s)”。一旦因果干预应用于点击事件(即，用户被迫点击所有暴露的项目)，Z就无法控制用户的点击行为。这意味着我们成功地消除了使CVR估计产生偏差的混杂因素Z[25, 26, 24, 27, 28]。

显然，这个假想干预实验中产生的“do dataset”在现实中是无法获得的。现在的挑战是如何训练我们在观测数据集O上的CVR估计器，就像我们在“do dataset”上做的那样。在接下来的章节中，我们将讨论两种可以使用MNAR数据实现无偏CVR预测的估计器。