| |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| -> 人工智能 -> User和item特征笔记 -> 正文阅读 |
|
|
[人工智能]User和item特征笔记 |
|
本文是对七月在线推荐课程王老师讲的关于user 和item特征的一个简单随堂笔记。 本文主要围绕关于连续型和离散化特征、用户画像的特征、embedding特征、特征选择和特征降维来展开。? 连续和离散化特征? 为什么会有这个区分? ????????? 离散特征和连续特征的特点 ????????? 离散和连续的相互转化 连续值是有大小上的意义的。等距的离散化的分桶,当桶分的过大时,会导致桶底和桶尾的值没有大小区分了,所以分桶的桶距不适合分的太大。另外还有等频的离散化分桶? 怎么进行特征离散化? 分桶:? 一般有手动分桶和自动分桶两种方法. ? 手动分桶: 统计每个组的情况 ? 自动分桶: GBDT+LR 先在样本集上训练一个 GBDT 的树模型, 然后使用这个树模型 对特征进行编码, 将原始特征 𝑥 对应的叶子节点按照 01 编码, 作 为新的特征, 叠加到 LR 模型里再训练一个 LR 模型. 为什么这样做是有效的? 因为 GBDT 是在函数空间对残差进行连续的逼近, 精度很高, 但是容易过拟合; 在进行裁剪后, 利用叶子节点编码, 有效的把 连续特征离散化, 因此适合 LR. 2004 年Facebook 在论文 Practical Lessons from Predicting Clicks on Ads at Facebook 中提出的 GBDT + LR 模型给出了一个可行的解决方案。 ?????????GBDT构建特征,LR预估CTR ?????????深度决定特征交叉阶数(深度不能太深,否则容易过拟合,一般设置5-7) ?????????特征工程模型化,模型的输入可以是原始的特征向量,实现端到端训练。
? 对于送给FM,连续型特征通常会进行分桶, 点评赞类的统计型连续型特征送给deepFM ,尤其是FM 侧,一般会需要进行分桶,(当然也可以进行不分桶的对比尝试) ,分桶大小一般可以设置为100-300个桶之间(需要根据数值进行分位数分析) ,分桶的话会更方便特征交叉,可以获取更多信息。
课上讲到的一个案例 ctr是log之后,乘上一个100,再向下取整 。 ? 用户画像想到的特征: 背景: 广告比赛?
如何捕捉到真正有用的用户特征, 其实是和业务以及建模问题强相关的. 交叉特征: ? 交叉方式: 类别+类别; 类别+连续,连续+连续 业务组合:用户侧+商品侧,用户侧+用户侧,商品侧+商品侧 (交叉组合需要考虑性能) |
|
|
|
|
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| 360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年11日历 | -2025/11/2 5:13:19- |
|
| 网站联系: qq:121756557 email:121756557@qq.com IT数码 |