机器学习模型评估与选择
k折交叉验证法
自助法
调参
错误率 精度
P-R曲线
!](https://img-blog.csdnimg.cn/4c47365015e441d7973046a91ddff6e6.png) 1.误差 训练误差:在训练集上的误差 测试误差:在测试集上的误差 泛化误差:学习器在所有新样本上的误差 2.过拟合:学习能力过强,以至于把训练样本所包含的不太一般的特性都学到了 (欠拟合)
3.K折交叉验证法: 作用:解决问题时可供选择的机器学习算法有很多种,交叉验证法能帮助我们实现多种机器学习方法的比较。 例(10折交叉验证法):将所有样本进行十等份,其中任意一等份当作测试数据,其余为训练数据,如下图所示,黄色为测试数据,蓝色为训练数据 缺点:当数据量较大时,不好计算。
4.自助法:直接以自助取样法为基础 适用:数据较小,难以划分 缺点:当改变初始数据集分布时,会引入估计误差。 5.调参(超参数) 目的:对模型的参数进行相应的调整,以期获得更好的预测效果 模型参数:模型内部的配置变量,可以用数据估计。 模型超参数:模型外部的配置,必须手动设置参数的值,其值不能从数据估计中得到。 验证集:在调参过程中,经常会加一个数据集–验证集。训练集训练,验证集看结果,然后调参,再用验证集看结果…调到最佳后,在测试集上看结果。
6.错误率,精度 错误率 精度 其中双杠号是统计满足括号内条件的元素的个数
7.P-R曲线 举例:手写数字识别;分类器;二分类等等 (其实际上都是随着阈值的移动,查全率与查准率的反向关系)即如下图 阈值-PR图像: 而P=R时的阈值点,也是确定最优阈值的一个方法
|