IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Re10ch3搜索和推荐的matching技术-召回 -> 正文阅读

[人工智能]Re10ch3搜索和推荐的matching技术-召回

本文是对七月在线推荐课程-搜索和推荐的matching技术-召回的一个随堂笔记,课上实际主要围绕youtube的dnn 推荐架构来讲解了召回的流程,如何理解embedding和FM的公示推导,以及deepfm的框架和实现。?

召回系统架构? :

曝光去重: 1) 疲劳度过滤(类似重复长期不点击的类别过滤掉)?

? 2) 最近已看过的东西的过滤

? 3) 业务的过滤

召回索引? 、流式计算? 的简单介绍;?

Youtube 召回

  • 线下模型训练阶段, 三层 ReLU 神经网络之后接到 softmax 层, 也就是说在这里作者建模为为用户推荐下一个感兴趣视 频的多分类问题, 输出是在所有候选视频集合上的概率分布
  • ? ?线上预测阶段, 考虑到召回的高性能需求首先通过 userId 找 到相应的用户向量, 然后使用 KNN 类方法找到相似度最高 的 N 条候选结果返回 (局部敏感哈希) 【局部敏感哈希,普通的哈希是不保持相对顺序的。局部敏感哈希是一种能保持相对顺序的哈希方法】

? 模型整体的思路可以认为是传统协同过滤思路的扩展. 传统的 UCF 强调相似的用户感兴趣的物品也相似; 传统的 ICF 强调对物品 A 感兴趣的用户, 可能也对物品 A 相似的物品同样 感兴趣. 所以传统的 UCF 和 ICF 实际上是分别构造了用户向量 空间和物品向量空间, 在任何一个向量空间找到相似性都可以进 行推荐.?

而 YoutubeDNN 则学习统一的 (用户 + 物品) 向量空间来代替 原来的两个独立的向量空间, 使用深度网络将用户 + 物品映射到 这个统一的低维向量空间来发现学习更高阶的用户物品相似性.?

什么是embedding ?

从三个角度看:?

  • ? ?用户观看过的 video 的 embedding 向量
  • ? ?用户搜索词的 embedding 向量以及用户的地理位置年龄等静态特征
  • ? ?这里的 embedding 向量作者是用 word2vec 类方法预先生成 的

简单介绍了词的embedding ,word2vec 的大致原理,以cbow为例。 无监督的序列学习转化为“有监督”提了下item2vec 。离线去算好参数,? 在线的时候去调用。?

FM 模型的表达式:?

𝑦 = 𝜎(𝑤 · 𝑥 + 𝑥𝑇 · 𝑊(2) · 𝑥)?

与 LR 不同的是, 这里有了二阶特征组合. 但是对于系数的情况, 我们怎么依然可以优雅的学习到呢??

使用矩阵分解的技巧

𝑊(2) =𝑊𝑇 ·𝑊
𝑦=𝜎(𝑤·𝑥+𝑥𝑇 ·𝑊𝑇·𝑊·𝑥)=𝜎(<𝑤,𝑥>+<𝑊·𝑥,𝑊·𝑥>)

参数由n方,变为nk,其中的k是远小于n的

关键推导:?

?FM 有哪些优势??

? 泛化性能强? embedding 的使用?

Compare FM and MF?

  • MF 模型是 FM 模型的特例, MF 可以被认为是只有 User ID 和 Item ID 这两个特征 Fields 的 FM 模型. MF 将这两 类特征通过矩阵分解, 来达到将这两类特征 embedding 化表 达的目的
  • ? ?FM 则可以看作是 MF 模型的进一步拓展, 除了 User ID 和 Item ID 这两类特征外, 很多其它类型的特征, 都可以进一步 融入 FM 模型里, 它将所有这些特征转化为 embedding 低 维向量表达, 并计算任意两个特征 embedding 的内积, 就是 特征组合的权重
    ? FM 继承了 MF 的特征 embedding 化表达这个优点, 同时引 入了更多 Side information (除了id类特征外,如年龄身高等side information信息)作为特征, 将更多特征及 Side information embedding 化融入 FM 模型中. 所以很明显 FM 模型更灵活, 能适应更多场合的应用范围

其他:

围绕deepfm的简单案例代码提了下tensorflow 的学习流程介绍

讲到了分布式学习的一个简单描述; parameter server

estimator的理解。;

基本:?session ,graph? : variable ,placeholder,constant 的基本概念,optimiizer? : compute gradient;? apply gradient;layer/op : 然后一个tensorflow案例 串起上面

进阶: estimator/ 分布式 的深入 :? ps ,chief_worker ,master worker ,client? 的理解 ?

高阶:?session /graph 的深入理解? :从c++ 层次去深入理解。 ?

鸣谢与参考:?

七月在线推荐课程。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-19 12:04:06  更:2021-08-19 12:04:58 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/1 8:12:30-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码