写在前面的一些内容
本次习题来源于 神经网络与深度学习 pdf电子书的第66页和第67页(对应纸质版第51页和第52页)的习题2-1和习题2-12。 水平有限,难免有误,如有错漏之处敬请指正。
习题2-1
分析为什么平方损失函数不适用于分类问题。
答: ①平方损失函数定义如下:
L
(
y
,
f
(
x
;
θ
)
)
=
1
2
(
y
?
f
(
x
;
θ
)
)
2
\begin{align} \mathcal{L}(y,f(\boldsymbol{x};\theta))=\frac{1}{2}(y-f(\boldsymbol{x};\theta))^2\end{align}
L(y,f(x;θ))=21?(y?f(x;θ))2??该函数通过计算预测值和真实值的偏差程度来计算误差,通过在正态分布的数据上进行极大似然估计。但是并非所有分类问题的分布都服从正态分布。 ②分类问题可以拿“非黑即白”来形容——即分类问题的标签之间并没有连续的关系,分类分对了就是正确、分错了就是错误。所以说,不能用损失函数的大小来确定你的分类是否正确,因此预测值和标签之间的平方差无法反应分类问题的优化程度,也就不能使用平方损失函数来当作分类问题的损失函数。
习题2-12
对于一个三分类问题,数据集的真实标签和模型的预测标签如下:
| | | | | | | | | |
---|
真实标签 | 1 | 1 | 2 | 2 | 2 | 3 | 3 | 3 | 3 | 预测标签 | 1 | 2 | 2 | 2 | 3 | 3 | 3 | 1 | 2 |
分别计算模型的精确率、召回率、F1值以及它们的宏平均和微平均。
答:①精确率
P
1
=
T
P
1
T
P
1
+
F
P
1
=
1
1
+
1
=
1
2
\begin{align} P_1=\frac{TP_1}{TP_1+FP_1}=\frac{1}{1+1}=\frac{1}{2} \end{align}
P1?=TP1?+FP1?TP1??=1+11?=21???
P
2
=
T
P
2
T
P
2
+
F
P
2
=
2
2
+
2
=
1
2
\begin{align} P_2=\frac{TP_2}{TP_2+FP_2}=\frac{2}{2+2}=\frac{1}{2} \end{align}
P2?=TP2?+FP2?TP2??=2+22?=21???
P
3
=
T
P
3
T
P
3
+
F
P
3
=
2
2
+
1
=
2
3
\begin{align} P_3=\frac{TP_3}{TP_3+FP_3}=\frac{2}{2+1}=\frac{2}{3} \end{align}
P3?=TP3?+FP3?TP3??=2+12?=32???②召回率
R
1
=
T
P
1
T
P
1
+
F
N
1
=
1
1
+
1
=
1
2
\begin{align} R_1=\frac{TP_1}{TP_1+FN_1}=\frac{1}{1+1}=\frac{1}{2} \end{align}
R1?=TP1?+FN1?TP1??=1+11?=21???
R
2
=
T
P
2
T
P
2
+
F
N
2
=
2
2
+
1
=
2
3
\begin{align} R_2=\frac{TP_2}{TP_2+FN_2}=\frac{2}{2+1}=\frac{2}{3} \end{align}
R2?=TP2?+FN2?TP2??=2+12?=32???
R
3
=
T
P
3
T
P
3
+
F
N
3
=
2
2
+
2
=
1
2
\begin{align} R_3=\frac{TP_3}{TP_3+FN_3}=\frac{2}{2+2}=\frac{1}{2} \end{align}
R3?=TP3?+FN3?TP3??=2+22?=21???③F1值
β
\beta
β=1
F
1
1
=
(
1
+
β
2
)
×
P
1
×
R
1
β
2
×
P
1
×
R
1
=
2
?
1
2
?
1
2
1
?
1
2
+
1
2
=
1
2
\begin{align} F1_1=\frac{(1+\beta^2)×P_1×R_1}{\beta^2×P_1×R_1}=\frac{2*\frac{1}{2}*\frac{1}{2}}{1*\frac{1}{2}+\frac{1}{2}}=\frac{1}{2} \end{align}
F11?=β2×P1?×R1?(1+β2)×P1?×R1??=1?21?+21?2?21??21??=21???
F
1
2
=
(
1
+
β
2
)
×
P
2
×
R
2
β
2
×
P
2
×
R
2
=
2
?
1
2
?
2
3
1
?
1
2
+
2
3
=
4
7
\begin{align} F1_2=\frac{(1+\beta^2)×P_2×R_2}{\beta^2×P_2×R_2}=\frac{2*\frac{1}{2}*\frac{2}{3}}{1*\frac{1}{2}+\frac{2}{3}}=\frac{4}{7} \end{align}
F12?=β2×P2?×R2?(1+β2)×P2?×R2??=1?21?+32?2?21??32??=74???
F
1
3
=
(
1
+
β
2
)
×
P
3
×
R
3
β
2
×
P
3
×
R
3
=
2
?
2
3
?
1
2
1
?
2
3
+
1
2
=
4
7
\begin{align} F1_3=\frac{(1+\beta^2)×P_3×R_3}{\beta^2×P_3×R_3}=\frac{2*\frac{2}{3}*\frac{1}{2}}{1*\frac{2}{3}+\frac{1}{2}}=\frac{4}{7} \end{align}
F13?=β2×P3?×R3?(1+β2)×P3?×R3??=1?32?+21?2?32??21??=74??? ④宏平均
M
a
c
r
o
P
=
1
3
∑
1
3
P
i
=
5
9
\begin{align} Macro_P=\frac{1}{3}\sum_1^3P_i=\frac{5}{9} \end{align}
MacroP?=31?1∑3?Pi?=95???
M
a
c
r
o
R
=
1
3
∑
1
3
R
i
=
5
9
\begin{align} Macro_R=\frac{1}{3}\sum_1^3R_i=\frac{5}{9} \end{align}
MacroR?=31?1∑3?Ri?=95???
M
a
c
r
o
F
=
2
×
M
a
c
r
o
P
×
M
a
c
r
o
R
M
a
c
r
o
P
+
M
a
c
r
o
R
=
5
9
\begin{align} Macro_F=\frac{2×Macro_P×Macro_R}{Macro_P+Macro_R}=\frac{5}{9} \end{align}
MacroF?=MacroP?+MacroR?2×MacroP?×MacroR??=95??? ⑤微平均
M
i
c
r
o
P
=
∑
T
P
i
∑
T
P
i
+
∑
F
P
i
=
5
8
\begin{align} Micro_P=\frac{\sum TP_i}{\sum TP_i+\sum FP_i}=\frac{5}{8} \end{align}
MicroP?=∑TPi?+∑FPi?∑TPi??=85???
M
i
c
r
o
R
=
∑
T
P
i
∑
T
P
i
+
∑
F
N
i
=
5
9
\begin{align} Micro_R=\frac{\sum TP_i}{\sum TP_i+\sum FN_i}=\frac{5}{9} \end{align}
MicroR?=∑TPi?+∑FNi?∑TPi??=95???
M
i
c
r
o
F
=
2
×
M
i
c
r
o
P
×
M
i
c
r
o
R
M
i
c
r
o
P
+
M
i
c
r
o
R
=
10
17
\begin{align} Micro_F=\frac{2×Micro_P×Micro_R}{Micro_P+Micro_R}=\frac{10}{17} \end{align}
MicroF?=MicroP?+MicroR?2×MicroP?×MicroR??=1710???
综上。
|