IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> CTR预估AUC=0.99问题记录 -> 正文阅读

[人工智能]CTR预估AUC=0.99问题记录

项目场景:

最近在做CTR预估,同时有4个业务的一起做,之前在其他平台使用的机器学习没有问题。换到新的深度学习平台,用DNN和DeepFM做auc高的吓人。


问题描述:

模型从一开始就可以稳定收敛,无论是测试集还是训练集都可以稳定在0.99的auc。设定定时任务离线训练了数天后发现,偶尔会有几天auc突然变成0.5,之后有会变成0.99。
auc=0.99


原因分析:

遇到这个问题头也是大的,之前没做过这块的工作。只能一个个原因排查:

  1. 是不是训练数据过拟合?
    答:但是在测试集上也有很高的auc很显然不是过拟合。
  2. 是不是样本数据不均衡?
    答:检查后正负样本比例是1:3,而且auc本身对正负样本比例是不敏感的,应该也不是这个问题。
  3. 是不是auc本身计算有错?
    答:看了一下日志,auc计算是分布式的,按每个batch最后算平均,看起来都很正常。
  4. 是不是模型过于复杂?
    答:尝试着减少层数,减少神经元,删除BN都无济于事,dropout也没有用。
  5. 是不是模型写错了?
    答:用了别人的deepfm代码和自己写的DNN,都是一个效果,模型应该也没有问题。
  6. 是不是数据量太小了?
    答:数据量每天100w左右,部分业务有500w,改用热更新之后几天依旧无法解决这个问题。
模型一圈看完了感觉还是数据本身的问题,上知乎搜到一个和我情况很类似的兄弟,提到了“特征穿越”。大概就是特征里面已经包含了样本标签。看了一下很可能是这个原因,决定对特征一个个下手。

解决方案:

暴力二分查找,从33个特征里面找到了一个“360天点击游戏id”的特征,发现单特征auc居然到了0.96!说明这个特征基本上就能确定标签了,对业务逻辑思考后发现,当天产生的该特征和当天产生的正样本会有高度的相似,导致了“特征穿越”。因此在离线训练的时候,需要利用前天的特征拼接昨天的样本,产生训练集。大致意思如下图所示:
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-24 00:07:23  更:2021-07-24 00:07:27 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年4日历 -2024/4/20 1:17:09-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码