| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 数据结构与算法 -> 传统推荐算法Facebook的GBDT+LR模型深入理解 -> 正文阅读 |
|
[数据结构与算法]传统推荐算法Facebook的GBDT+LR模型深入理解 |
目标:深入理解Facebook 2014年提出的的GBDT+LR模型。 算法背景:FaceBook一推出这一模型就引起了业内的轰动,因其设计的巧妙以及预测效果的精良,很多公司一度极力推广,在数据比赛KDD中也经常使用。尽管GBDT+LR依然存在其问题点,但是在当时数据量没有特别大的情况下,这一模型几乎处于横扫千军的状态。 点击率预估模型(CTR)涉及的训练样本一般是上亿级别,样本量大,模型常采用速度较快的LR(logistic regression)。LR虽然是线性模型线性模型,但是在业界广泛使用。为什么呢?
在深度学习大行其道之前,一般采用人工或传统的方法进行特征工程,人工成本高,传统的方法像FM,FFM,只能挖掘两个特征间的特征交互关系,作用有限。GBDT是解决这个问题的一种不错方案。
显而易见,GBDT对于处理特征有很多优点。而LR虽然是线性模型,但是Facebook探索出一种将GBDT和LR结合的方案,来预测广告的点击通过率(Click Trough Rate,CTR)的预测问题。结果显示融合方案比单个的GBDT或LR的性能高3%左右。 算法原理:点击通过问题,用户要么点击要么不点击,因此
y
∈
(
0
,
1
)
y∈{(0,1)}
y∈(0,1),是个二分类的问题。 理解算法:
这两个模型的优缺点整合后发现,两者刚好可以互补,因此,成就了这一经典。
GBDT+LR缺点:模型也有一定的缺点 缺点:
2、离线处理和在线处理都比较复杂。需要把多棵树丢到线上去,然后遍历,拼装特征,然后线性推断,比较麻烦。 3、 离线训练容易过拟合,因为GBDT本身就容易过拟合。
LR:最简单的是逻辑回归(Logistic Regression),一个广义线性模型。 拿某user的用户画像(一个向量)比如
[
3
,
1
]
[3, 1]
[3,1],拼接上某item的物品画像比如
[
4
,
0
]
[4, 0]
[4,0],再加上代表context的向量
[
0
,
1
,
1
]
[0, 1, 1]
[0,1,1]后得到
x
=
[
3
,
1
,
4
,
0
,
0
,
1
,
1
]
x=[3, 1, 4, 0, 0, 1, 1]
x=[3,1,4,0,0,1,1],若该user曾与该item发生过联系则
l
a
b
e
l
label
label为1,这些加起来是一个正样本,同时可以将用户“跳过”的item或热门的却没有与用户产生过联系的item作为负样本,
l
a
b
e
l
label
label为0,拟合如下方程: 其中
x
x
x即为上述向量,
w
w
w是与
x
x
x每个元素相对应的权重,
b
b
b为截距。其损失函数为: 通过降低此损失函数来拟合训练样本来完成模型的训练,利用模型对新的数据进行预测即完成了打分。训练过程参考sklearn的LogisticRegression很容易完成。 传统的LR只能在线下批量处理大量数据,无法有效处理大规模的在线数据流。模型更新可能要一天甚至更多,不够及时。 代码部分代码部分下篇再说。此篇够长了。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/9 1:02:15- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |