| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> paper读书笔记 -> 正文阅读 |
|
[人工智能]paper读书笔记 |
1.spark var text_file=sc.textfile('/input) var word=text_file.flatmap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_) var out=word.count() 离线评估方法: holdout评估:70%训练集,10%验证集,20%测试集 交叉检验:k-fold交叉验证(一般取10份,然后轮流做训练集+测试集)留一验证:每次留下1个样本作为验证集,其余所有样本作为测试集 自助法:不断进行有放回采样作为测试集,没采到的最后作为测试集(占比30%)左右 离线评估的主要指标准确率:分类准确率是指分类正确的样本占总样本个数的比例精确率和召回率:
均方根误差如果存在个别偏离程度非常大的离群点,那么即使离群点的数量非常少,也会让RMSE指标变得很差? MAPE: ?对数损失函数 LogLoss,在一个二分类问题中,LogLoss定义为: 直接评估推荐序列的离线指标: 在某一阈值下,模型将大于该阈值的结果判定为正样本,将小于该阈值的结果判定为负样本时,排序结果对应的召回率和精确率 ROC曲线「受试者工作特征曲线」 ROC曲线的横坐标时 False Posotive Rate(FPR, 假阳性率),纵坐标时True Positive Rate(TPR,真阳性率) 平均精度均值AP的计算只取正样本处的precision进行平均,即 AP= (1/1 + 2/4 + 3/5 + 4/6) =0.6917 除了上述介绍的几种评估指标,推荐系统的评估指标还包括:
更接近线上环境的离线评估方法-Replay 动态离线评估方法
A/B测试与线上评估?注意样本等独立性和无偏性,同一用户在测试的全程中只能被分到同一个桶中。
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 12:54:39- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |