IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 点击率预估-负采样后校准方法 -> 正文阅读

[人工智能]点击率预估-负采样后校准方法

在训练点击率预估模型的时候,训练数据中正负样本不均衡是常见的现象,对于这种问题,会对负样本进行采样,然后将采样后的负样本和正样本一起作为训练数据来训练ctr模型。由于负采样的缘故,会导致线上待预测数据分布与离线训练分布有很大差距,线上预估分数往往会高于真实值,所以非常有必要进行校准。

校准过程如下

  1. 变量定义。
    • p ′ p^{'} p已经采样后的预估概率(训练)
    • p p p未经采样的预估概率(测试)
    • N p N_p Np?原始正样本数量
    • N n N_n Nn?采样后负样本数量
    • r r r负样本的采样比例,分数,例如0.1
    • N n r \frac{N_n}{r} rNn??采样前负样本数量
    • 假设点击预估函数为sigmoid函数(训练)

p ′ = σ ( x ) = 1 1 + e ( ? w x ) p^{'} = \sigma(x) = \frac{1}{1+e(-wx)} p=σ(x)=1+e(?wx)1?

  1. 正 样 本 概 率 负 样 本 概 率 = 正 样 本 数 负 样 本 数 \frac{正样本概率}{负样本概率} = \frac{正样本数}{负样本数} ?=?

p ′ 1 ? p ′ = N p N n \frac{p^{'}}{1-p^{'}} = \frac{N_p}{N_n} 1?pp?=Nn?Np??

p 1 ? p = N p N n r \frac{p}{1-p} = \frac{N_p}{\frac{N_n}{r}} 1?pp?=rNn??Np??

  1. 根据2中公式可以得到

p 1 ? p = p ′ 1 ? p ′ ? r \frac{p}{1-p} = \frac{p^{'}}{1-p^{'}} * r 1?pp?=1?pp??r

  1. 采用的sigmoid预测

    1 p ′ = 1 + e ? w x = > 1 ? p ′ p ′ = e ? w x = > l n ( 1 ? p ′ p ′ ) = ? w x \frac{1}{p^{'}} = 1 + e^{-wx} => \frac{1-p^{'}}{p^{'}} = e^{-wx} => ln(\frac{1-p^{'}}{p^{'}}) = -wx p1?=1+e?wx=>p1?p?=e?wx=>ln(p1?p?)=?wx

    可以得到

    l n ( p ′ 1 ? p ′ ) = w x ln(\frac{p^{'}}{1-p^{'}}) = wx ln(1?pp?)=wx

  2. 结合3 、 4

    l n ( p 1 ? p ) = l n ( p ′ 1 ? p ′ ) ? l n ( r ) = w x + l n ( r ) ln(\frac{p}{1-p}) = ln(\frac{p^{'}}{1-p^{'}}) * ln(r) = wx + ln(r) ln(1?pp?)=ln(1?pp?)?ln(r)=wx+ln(r)

  3. 最终得到校准后的预估函数

    p = 1 1 + e ? ( w x + l n ( r ) ) = 1 1 + 1 r ? e ? w x p = \frac{1}{1 + e^{-(wx + ln(r))}} = \frac{1}{1 + \frac{1}{r} * e^{-wx}} p=1+e?(wx+ln(r))1?=1+r1??e?wx1?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-24 10:50:21  更:2022-01-24 10:54:50 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/19 4:38:22-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码