一、混淆矩阵
TP、True Positive 真阳性:预测为正,实际为正
FP、False Positive 假阳性:预测为正,实际为负
FN、False Negative 假阴性:预测与负、实际为正
TN、True Negative 真阴性:预测为负、实际为负。
T、F代表的是预测的准确与否;P、N代表的是预测的阳性以及阴性。
| 预测为正样本(Positive) | 预测为负样本(Negative) |
---|
标签为正样本 | TP (True Positive) | FN (false Negative) | 标签为负样本 | FP (False Positive) | TN (true Negative) |
二、常见的二分类指标
?Precisoin?
=
T
P
T
P
+
F
P
\text { Precisoin }=\frac{T P}{T P+F P}
?Precisoin?=TP+FPTP?
- Recall(召回率)/Sensitivity(灵敏度):分类正确的正样本个数占实际正样本个数的比例。
Recall
?
=
T
P
T
P
+
F
N
\operatorname{Recall}=\frac{T P}{T P+F N}
Recall=TP+FNTP?
- F1-score:当类别不均衡,它或许是一个比单纯Accuracy更好的指标。
F
1
=
2
?
?precision?
?
?recall?
?precision?
+
?recall?
F 1=\frac{2 * \text { precision } * \text { recall }}{\text { precision }+\text { recall }}
F1=?precision?+?recall?2??precision???recall??
医学疾病二分类中,一般0、neg代表正常/良性;1、pos代表恶性/癌症。
三、多类别分类任务的指标kappa
kappa系数的计算是基于混淆矩阵的,取值为-1到1之间,通常大于0。基于混淆矩阵的kappa系数计算公式如下:
κ
=
p
0
?
p
e
1
?
p
e
\kappa=\frac{p_{0}-p_{e}}{1-p_{e}}
κ=1?pe?p0??pe?? 其中,
p
0
=
?混浠矩阵对角线元素之和?
?整个矩阵元素之和?
p_{0}=\frac{\text { 混浠矩阵对角线元素之和 }}{\text { 整个矩阵元素之和 }}
p0?=?整个矩阵元素之和??混浠矩阵对角线元素之和?? 即Accuracy。
p
e
=
∑
i
第
i
行元素之和
?
第
i
列元素之和?
∑
?矩阵所有元素之和?
2
p_{e}=\frac{\sum_{i} \text {第} i \text {行元素之和} * \text {第} i \text {列元素之和 }}{\sum \text { 矩阵所有元素之和 }^{2}}
pe?=∑?矩阵所有元素之和?2∑i?第i行元素之和?第i列元素之和?? 即所有类别分别对应的实际与预测数量的乘积的总和,除以样本总数的平方。
假设每一类的真实样本个数分别为a1,a2,…,aC,而预测出来的每一类的样本个数分别为b1,b2,…,bC
总样本个数为n,则有
p
e
=
a
1
×
b
1
+
a
2
×
b
2
+
…
+
a
C
×
b
C
n
×
n
p_{e}=\frac{\mathrm{a} 1 \times \mathrm{b} 1+\mathrm{a} 2 \times \mathrm{b} 2+\ldots+\mathrm{aC} \times \mathrm{bC}}{\mathrm{n} \times \mathrm{n}}
pe?=n×na1×b1+a2×b2+…+aC×bC?
推荐更详细系列: 回顾及总结–评价指标(分类指标) 机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱 机器学习评估指标–知乎
|