开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

[人工智能]【王喆-推荐系统】前沿篇-(task1)YouTube推荐架构

学习总结

YouTube推荐架构=召回层（多，快）+排序层（少，精）。
候选集生成模型：用了Embedding MLP，注意最后的多分类的输出层，预测的是用户点击了“哪个”视频。线上服务时，需要从输出层提取出【视频 Embedding】，从最后一层 ReLU 层得到【用户 Embedding】，然后利用最近邻搜索（如LSH等）快速得到某用户的候选集。这样能够提高模型服务的效率了，不用把模型推断的逻辑搬上服务器，只需要将用户 Embedding 和视频 Embedding 存到redis特征数据库就行了。
排序模型：也是Embedding MLP 架构，但是有更多的用户和视频的特征输入层，输出层采用了 Weighted LR（逻辑回归）作为输出层（预测是典型CTR），并且使用观看时长作为正样本权重，让模型能够预测出观看时长，这更接近 YouTube 要达成的商业目标。

（1）精读谷歌的这篇paper《Deep Neural Networks for YouTube Recommendations》
（2）王喆老师的YouTube深度学习推荐系统的十大工程问题

在这里插入图片描述

文章目录

学习总结
一、YouTube 推荐系统架构
二、候选集生成模型
三、候选集生成模型独特的线上服务方法
- 3.1 问题一：为啥用视频ID作为预测label
- 3.2 问题二：视频embedding和用户embedding哪里来
四、排序模型
五、作业
六、课后答疑
Reference

一、YouTube 推荐系统架构

YouTube 平台中几乎所有的视频都来自 UGC（User Generated Content，用户原创内容），其内容产生模式特点：

一是其商业模式不同于 Netflix，以及国内的腾讯视频、爱奇艺这样的流媒体，这些流媒体的大部分内容都是采购或自制的电影、剧集等头部内容，而 YouTube 的内容都是用户上传的自制视频，种类风格繁多，头部效应没那么明显；
二是由于 YouTube 的视频基数巨大，用户难以发现喜欢的内容。

YouTube 在 2016 年发布的推荐系统架构：
在这里插入图片描述

图1 YouTube推荐系统整体架构

为了对海量的视频进行快速、准确的排序，YouTube 也采用了经典的召回层 + 排序层的推荐系统架构（两层都使用了深度学习方法）。其推荐过程分为两级：

第一级是用候选集生成模型（Candidate Generation Model）完成候选视频的快速筛选，在这一步，候选视频集合由百万降低到几百量级，这就相当于经典推荐系统架构中的召回层。
第二级是用排序模型（Ranking Model）完成几百个候选视频的精排，这相当于经典推荐系统架构中的排序层。

二、候选集生成模型

视频召回的候选集生成模型：
在这里插入图片描述

图2 YouTube候选集生成模型架构

（1）最底层
是它的输入层，输入的特征包括用户历史观看视频的 Embedding 向量，以及搜索词的 Embedding 向量。对于这些 Embedding 特征，YouTube 是利用用户的观看序列和搜索序列，采用了类似 Item2vec 的预训练方式生成的。

PS：也可以采用 Embedding 跟模型在一起 End2End 训练的方式来训练模型。注意预训练和 End2End 训练这两种方式的区别。

除了视频和搜索词 Embedding 向量，特征向量中还包括用户的地理位置 Embedding、年龄、性别等特征。这里我们需要注意的是，对于样本年龄这个特征，YouTube 不仅使用了原始特征值，还把经过平方处理的特征值也作为一个新的特征输入模型。

该操作是为了挖掘特征非线性的特性，当然，这种对连续型特征的处理方式不仅限于平方，其他诸如开方、Log、指数等操作都可以用于挖掘特征的非线性特性。具体使用哪个，需要我们根据实际的效果而定。

（2）确定好了特征，跟我们之前实践过的深度学习模型一样，这些特征会在 concat 层中连接起来，输入到上层的 ReLU 神经网络进行训练。

（3）三层 ReLU 神经网络过后，YouTube 又使用了 softmax 函数作为输出层。注意这里的输出层不是要预测用户会不会点击这个视频，而是要预测用户会点击哪个视频，这就跟我们之前实现过的深度推荐模型不一样了。

比如说，YouTube 上有 100 万个视频，因为输出层要预测用户会点击哪个视频，所以这里的 sofmax 就有 100 万个输出。因此，这个候选集生成模型的最终输出，就是一个在所有候选视频上的概率分布。为什么要这么做呢？它其实是为了更好、更快地进行线上服务。

小结：YouTube 推荐系统的候选集生成模型，是一个标准的利用了 Embedding 预训练特征的深度推荐模型，它遵循我们之前实现的 Embedding MLP 模型的架构，只是在最后的输出层有所区别。

三、候选集生成模型独特的线上服务方法

3.1 问题一：为啥用视频ID作为预测label

为什么候选集生成模型不用“用户是否点击视频”label作为预测目标，而是使用“视频ID”label？
原因：和候选集生成模型的线上服务方式有关。刚才上图中的最上部分：
在这里插入图片描述
架构图左上角的模型服务（Serving）方法与模型训练方法完全不同。在候选集生成模型的线上服务过程中，YouTube 并没有直接采用训练时的模型进行预测，而是采用了一种最近邻搜索的方法：

在模型服务过程中，网络结构比较复杂，如果我们对每次推荐请求都端到端地运行一遍模型，处理一遍候选集，那模型的参数数量就会巨大，整个推断过程的开销也会非常大。

在通过“候选集生成模型”得到用户和视频的 Embedding 后，我们再通过 Embedding 最近邻搜索的方法（如局部敏感哈希LSH），就可以提高模型服务的效率了。这样就不用把模型推断的逻辑搬上服务器，只需要将用户 Embedding 和视频 Embedding 存到特征数据库就行了。

3.2 问题二：视频embedding和用户embedding哪里来

【视频embedding向量】
架构图中从 softmax 向模型服务模块画了个箭头，用于代表视频 Embedding 向量的生成。由于最后的输出层是 softmax，而这个softmax 层的参数本质上就是一个 m x n 维的矩阵：

其中 m 指的是最后一层红色的 ReLU 层的维度 m，
n 指的是分类的总数，也就是 YouTube 所有视频的总数 n。
因此，视频 Embedding 就是这个 m x n 维矩阵的各列向量。（这样的 Embedding 生成方法其实和 word2vec 中词向量的生成方法是相同的）

在这里插入图片描述
【用户embedding向量】
用户 Embedding 的生成就非常好理解了，因为输入的特征向量全部都是用户相关的特征，一个物品和场景特征都没有，所以在使用某用户 u 的特征向量作为模型输入时，最后一层 ReLU 层的输出向量就可以当作该用户 u 的 Embedding 向量。

然后将视频embedding和用户embedding预存到线上的特征数据库中，在预测某用户的视频候选集时：
（1）YouTube 要先从特征数据库中拿到该用户的 Embedding 向量；
（2）再在视频 Embedding 向量空间中，利用局部敏感哈希等方法搜索该用户 Embedding 向量的 K 近邻，这样就可以快速得到 k 个候选视频集合。

四、排序模型

4.1 排序层模型

YouTube的深度学习排序模型的架构如下图，基本模型还是embedding+MLP，重点关注输入层和输出层的部分。经过召回层的粗筛，排序层可以引入更多特征进行精排，
在这里插入图片描述
上图中YouTube 的输入层从左至右引入的特征依次是：

impression video ID embedding：当前候选视频的 Embedding；
watched video IDs average embedding：用户观看过的最后 N 个视频 Embedding 的平均值；
language embedding：用户语言的 Embedding 和当前候选视频语言的 Embedding；
time since last watch：表示用户上次观看同频道视频距今的时间；
#previous impressions：该视频已经被曝光给该用户的次数；

第 4 个特征和第 5 个特征，很好地引入了 YouTube 工程师对用户行为的观察：

第 4 个特征 time since last watch 说的是用户观看同类视频的间隔时间。如果从用户的角度出发，假如某用户刚看过“DOTA 比赛经典回顾”这个频道的视频，那他很大概率会继续看这个频道的其他视频，该特征就可以很好地捕捉到这一用户行为。
第 5 个特征 #previous impressions 说的是这个视频已经曝光给用户的次数。我们试想如果一个视频已经曝光给了用户 10 次，用户都没有点击，那我们就应该清楚，用户对这个视频很可能不感兴趣。所以 #previous impressions 这个特征的引入就可以很好地捕捉到用户这样的行为习惯，避免让同一个视频对同一用户进行持续的无效曝光，尽量增加用户看到新视频的可能性。

最后：把这 5 类特征连接起来之后，需要再经过三层 ReLU 网络进行充分的特征交叉，然后就到了输出层。

4.2 排序层和召回层的输出层

注意，排序模型的输出层与候选集生成模型又有所不同。

不同主要有两点：

一是候选集生成模型选择了 softmax 作为其输出层，而排序模型选择了 weighted logistic regression（加权逻辑回归）作为模型输出层；
二是候选集生成模型预测的是用户会点击“哪个视频”，排序模型预测的是用户“要不要点击当前视频”。

原因：YouTube 想要更精确地预测用户的观看时长，因为观看时长才是 YouTube 最看中的商业指标，而使用 Weighted LR 作为输出层，就可以实现这样的目标。具体的做法：

在 Weighted LR 的训练中，我们需要为每个样本设置一个权重，权重的大小，代表了这个样本的重要程度。为了能够预估观看时长，YouTube 将正样本的权重设置为用户观看这个视频的时长，然后再用 Weighted LR 进行训练，就可以让模型学到用户观看时长的信息。

这是因为观看时长长的样本更加重要，严格一点来说，就是观看时长长的样本被模型预测的为正样本的概率更高，这个概率与观看时长成正比，这就是使用 Weighted LR 来学习观看时长信息的基本原理。

4.3 排序模型的模型服务方法

候选集生成模型是可以直接利用用户 Embedding 和视频 Embedding 进行快速最近邻搜索的。但是排序层就不可以这么做了。

一是因为我们的输入向量中同时包含了用户和视频的特征，不再只是单纯的用户特征。这样一来，用户 x 物品特征的组合过多，就无法通过预存的方式保存所有模型结果；
二是因为排序模型的输出层不再是预测视频 ID，所以我们也无法拿到视频 Embedding。
因此对于排序模型，我们必须使用 TensorFlow Serving 等模型服务平台，来进行模型的线上推断。

五、作业

YouTube 的排序模型和候选集生成模型，都使用了平均池化这一操作，来把用户的历史观看视频整合起来。你能想到更好的方法来改进这个操作吗？

【答】
（1）在召回层，对用户历史观看的序列，按照时间衰减因子，对用户观看emb序列进行加权求平均，加强最近观看视频的影响力
（2）在排序层，可以加入注意力机制，类似DIN模型中，计算候选emb与用户行为序列中视频emb的权重，然后在进行加权求平均，得到用户行为序列的emb

六、课后答疑

（1）id做输入再embedding vs. 预训练embedding：

视频id作为输入再embedding的end2end模型，受cold start影响比较大，因为每遇到新视频模型就需要重新训练。但是用pretrained的视频embedding作为输入，哪怕遇到新视频也可以仿照airbnb的做法生成一个tmp的embedding再喂给模型。
假如有几亿候选视频，直接id做输入会导致embedding层的参数数量非常大，使用预训练embedding可以避免这一点。（用户塔的embedding可以通过平均观看过的视频的embedding得到）

（2）用户向量做一层wx+b怎么就得到某个视频的embedding了

【答】最后一层是多分类，预测哪个物品id被观看的概率最高。所以相当于先WX+b, X是用户向量，W是m*n的矩阵（m是总视频数，n是用户embedding的纬度）。然后再把结果放入softmax中正则化得每个物品的观看概率。而大矩阵W的每一行(wi)刚好对应一个物品，所以可以被当做物品embedding。
在这里插入图片描述
（3）之前讲emb近邻搜索，需要用户emb和物品emb在同一向量空间。那么在召回层relu中提取的用户emb和softmax提取的物品emb，是在同一向量空间的，为什么？

【答】relu隐藏层的输出是用户向量，正好是softmax层的输入x，根据前向计算wi*x+b算得到了物品i 节点值，这里的wi也就能代表物品向量了，也就是说由用户向量参与计算生成了最后的物品向量，跟我们前面利用电影向量 sum pooling出用户向量逻辑一致。所以他们在同一向量空间。