一、模型表现指标计算
准确率:
a
c
c
=
正
确
的
预
测
数
量
总
量
acc=\frac{正确的预测数量}{总量}
acc=总量正确的预测数量?
精确率:
P
=
正
类
预
测
正
确
数
量
正
类
总
量
P=\frac{正类预测正确数量}{正类总量}
P=正类总量正类预测正确数量?
召回率:
正
类
预
测
正
确
所
有
预
测
为
正
的
数
量
\frac{正类预测正确}{所有预测为正的数量}
所有预测为正的数量正类预测正确?
F
1
F_1
F1?:
1
F
1
=
1
P
+
1
R
\frac{1}{F_1}=\frac{1}{P}+\frac{1}{R}
F1?1?=P1?+R1?
AUC:是ROC曲线下面的面积,AUC越大越好
二、偏差和方差
利用方差和偏差来解释泛化性能。
首先,我们训练模型是为了使得损失最小,其实是在当前数据集上表现好,当将其用于一般问题时,训练集与一般数据集之间的差异(损失差异)叫做泛化误差。泛化误差分为:偏差、方差、噪声。
偏差与方差从两个方面描述了学习到的模型与真实模型之间的差异。
偏差是训练得到的模型与真实模型输出值之间的差异
方差是不同训练集训练出的模型的差异(与真实之间无关)
欠拟合:偏差大,方差小 过拟合:偏差小,方差大
bagging:用不同的采样样本训练模型,取分类器的平均,方差小 bosting:是在拟合误差,偏差减小
三、过拟合
dropout、残差连接、early stop、正则、剪枝、增加噪声、bagging、权值共享
|