-
使用均方范数作为硬性限制
- 通过限制参数值的选择范围来控制模型容量
min
?
?
(
w
,
b
)
?subject?to?
∥
w
∥
2
≤
θ
\min \ell(\mathbf{w}, b) \quad \text { subject to }\|\mathbf{w}\|^{2} \leq \theta
min?(w,b)?subject?to?∥w∥2≤θ - 通常不限制
b
b
b (限不限制都差不多)
- 小的
θ
\theta
θ意味着更强的正则项
-
使用均方范数作为柔性限制
-
对每个
θ
\theta
θ,都可以找到
λ
\lambda
λ使得之前的目标函数等价于下面
min
?
?
(
w
,
b
)
+
λ
2
∥
w
∥
2
\min \ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^{2}
min?(w,b)+2λ?∥w∥2
-
超参数
λ
\lambda
λ控制了正则项的重要程度
-
λ
=
0
\lambda=0
λ=0:无作用
-
λ
→
i
n
f
t
y
\lambda \rightarrow \\infty
λ→infty,
w
?
→
0
\mathbf{w}^* \rightarrow \mathbf{0}
w?→0
-
参数更新法则
-
计算梯度
?
?
w
(
?
(
w
,
b
)
+
λ
2
∥
w
∥
2
)
=
?
?
(
w
,
b
)
?
w
+
λ
w
\frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^{2}\right)=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w}
?w??(?(w,b)+2λ?∥w∥2)=?w??(w,b)?+λw -
时间
t
t
t更新参数
w
t
+
1
=
(
1
?
η
λ
)
w
t
?
η
?
?
(
w
t
,
b
t
)
?
w
t
\mathbf{w}_{t+1}=(1-\eta \lambda) \mathbf{w}_{t}-\eta \frac{\partial \ell\left(\mathbf{w}_{t}, b_{t}\right)}{\partial \mathbf{w}_{t}}
wt+1?=(1?ηλ)wt??η?wt???(wt?,bt?)?
- 通常
η
λ
<
1
\eta \lambda < 1
ηλ<1,在深度学习中通常叫做权重衰退
|