1. 多层感知机模型

在这里插入图片描述

$\frac{?E}{?w_{jk}}=(O_k-t_k)O_k (1-O_k)x_j^0$ $\to$ $\frac{?E}{?w_{jk}}=(O_k-t_k)O_k (1-O_k)x_j^J$ 设: $δ_k^K=(O_k-t_k)O_k (1-O_k)$ 注: 这里可以将 $δ_k^K$ 理解为是k节点的一个属性; $\frac{?E}{?w_{jk}} =δ_k^K x_j^J$

2. 多层感知机梯度

在这里插入图片描述

$\frac{?E}{?w_{ij}} =\frac{?}{?w_{ij} } \frac{ 1}{2} ∑_{k∈K}(O_k-t_k)^2$ $\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k ) \frac{ ?}{?w_{ij}} O_k$
$\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k ) \frac{ ?}{?w_{ij}} σ(x_k )$ $\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k ) \frac{?σ(x_k )}{?x_k } \frac{?x_k}{?w_{ij} }$ $\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k ) σ(x_k )(1-σ(x_k ))\frac{?x_k}{?w_{ij} }$ $\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k )O_k (1-O_k)\frac{?x_k}{?w_{ij} }$ $\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k )O_k (1-O_k)\frac{?x_k}{?O_j} \frac{?O_j}{?w_{ij}}$ $\because x_k^K=O_0^J w_{0k}^J+O_1^J w_{1k}^J+?+O_j^J w_{jk}^J+?+O_n^J w_{nk}^J$ $\therefore\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k )O_k (1-O_k)w_{jk} \frac{?O_j}{?w_{ij}}$ $\frac{?E}{?w_{ij}} = \frac{?O_j}{?w_{ij}}∑_{k∈K}(O_k-t_k )O_k (1-O_k)w_{jk}$ $\because\frac{?O_j}{?w_{ij}}=\frac{?O_j}{?x_j} \frac{?x_j}{?w_{ij}} =O_j (1-O_j)\frac{?x_j}{?w_{ij}}$ $\therefore\frac{?E}{?w_{ij}} =O_j (1-O_j) \frac{?x_j}{?w_{ij}}∑_{k∈K}(O_k-t_k ) O_k (1-O_k)w_{jk}$ $\frac{?E}{?w_{ij}} =O_j (1-O_j)O_i ∑_{k∈K}(O_k-t_k ) O_k (1-O_k)w_{jk}$ $\because (O_k-t_k ) O_k (1-O_k )=δ_k$ $\therefore \frac{?E}{?w_{ij}}=O_i O_j (1-O_j)∑_{k∈K}δ_k w_{jk}$ 设: $δ_j^J=O_j (1-O_j)∑_{k∈K}δ_k w_{jk}$ 则: $\frac{?E}{?w_{ij}}=δ_j^J O_i^I$ 注: 可以把 $δ_k^K$ 理解为当前连接w_ij对误差函数的贡献值;

3. 传播规律小结

输出层
$\frac{?E}{?w_{jk}}=δ_k^{(K)} O_j$ $δ_k^{(K)}=O_k (1-O_k)(O_k-t_k)$
倒数第二层
$\frac{?E}{?w_{ij}}=δ_j^{(J)} O_i$ $δ_j^{(J)}=O_j (1-O_j)∑_kδ_k^{(K)} w_{jk}$
倒数第三层
$\frac{?E}{?w_{ni}}=δ_i^{(I)} O_n$ $δ_i^{(I)}=O_i (1-O_i)∑_jδ_j^{(J)} w_{ij}$ 其中 $O_n$ 为倒数第三层的输入，即倒数第四层的输出。