第二章
参考周志华老师的《机器学习》,后续内容根据学习进度继续补充。
2.1 经验误差与过拟合
错误率(error rate):分类错误的样本数占样本总数的比例,即如果在m个样本中有a个样本分类错误,则错误率 E= a/m 精度(accuracy):1-a/m 误差(error):学习器的实际预测输出与样本的真实输出之间的差异 训练误差(training error):学习器在训练集上的误差 泛化误差(generalization error):学习器在新样本上的误差 过拟合(overfitting):将训练样本自身的一些特点当作所有潜在样本都具有的一般性质,学得“太好”,导致泛化性能下降 欠拟合(underfitting):对训练样本的一般性质没学好
2.2 评估方法
2.2.1 留出法 通常将大约2/3~4/5的样本用于训练,剩余样本用于测试
2.2.2 交叉验证法
2.2.3 自助法
2.2.4 调参与最终模型
2.3 性能度量
2.3.1 错误率与精度
错误率: 精度: 2.3.2 查准率与查全率
分类混淆矩阵: 查准率(准确率): 查全率(召回率): P-R曲线: F1度量: Fβ度量:
|