W5 神经网络反向传播

9 神经网络的学习(Neural Networks: Learning)

新符号标记：

m代表训练样本的数量，每个包含一组输入向量 $x$ 和一组输出向量 $y$ ；

$L$ 表示神经网络的层数；

$S_l$ 表示第 $l$ 层神经元的个数（不包括偏置单元）；

$K$ 表示输出层单元的个数（即分类的类数、输入向量的维数）， $k$ 代表第 $k$ 个单元。

9.1 神经网络的代价函数

在逻辑回归中，输出值 $h_\theta \left( x \right)$ 只有一个，一组训练集中也只有一个 $y$ 。代价函数为：

$J\left( \theta \right)=\frac{1}{m}\sum\limits_{i=1}^{m}{[-{{y}^{(i)}}\log \left( {h_\theta}\left( {{x}^{(i)}} \right) \right)-\left( 1-{{y}^{(i)}} \right)\log \left( 1-{h_\theta}\left( {{x}^{(i)}} \right) \right)]}+\frac{\lambda }{2m}\sum\limits_{j=1}^{n}{\theta _{j}^{2}}$

但是在神经网络中有很多输出变量，即 $h_\theta(x)$ 和一组训练集中的 $y$ 是一个维度为 $K$ 的向量，因此我们的代价函数会比逻辑回归更加复杂一些：

$J(\Theta) = -\frac{1}{m} \left[ \sum\limits_{i=1}^{m} \sum\limits_{k=1}^{K} {y_k}^{(i)} \log {(h_\Theta(x^{(i)}))}_k + \left( 1 - y_k^{(i)} \right) \log \left( 1- {\left( h_\Theta \left( x^{(i)} \right) \right)_k} \right) \right] + \frac{\lambda}{2m} \sum\limits_{l=1}^{L-1} \sum\limits_{i=1}^{s_l} \sum\limits_{j=1}^{s_{l+1}} \left( \Theta_{ji}^{(l)} \right)^2$

其中： $\sum\limits_{k=1}^{K}$ 代表将K个输出单元每一个的代价函数都加起来；正则化项 $\frac{\lambda}{2m} \sum\limits_{l=1}^{L-1} \sum\limits_{i=1}^{s_l} \sum\limits_{j=1}^{s_{l+1}} \left( \Theta_{ji}^{(l)} \right)^2$ 表示每一层 $\Theta$ 矩阵参数的平方和（排除偏置 $\theta_0$ 后）， $i$ 循环每层中的所有列（由本层 $S_l$ 层激活单元数决定）， $j$ 循环每层中的所有行（由下一层 $S_{l+1}$ 层激活单元数决定）。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nhN4bP9u-1633276054502)(image/IMG_2995.png)]

9.2 反向传播算法(Backpropagation Algorithm)

这里吴恩达老师讲得不是很清楚，详细过程和推导见我上一篇博客：
《〈机器学习〉学习笔记4.9：反向传播(BP算法)详解》

在第四周的神经网络概述中，我们采用了一种正向传播方法。现在，为了最小化代价函数，需要计算代价函数的偏导数 $\frac{\partial}{\partial\Theta^{(l)}_{ij}}J\left(\Theta\right)$ ，这时就要采用反向传播算法，也就是首先计算最后一层的误差，然后再一层一层反向求出各层的误差，直到倒数第二层。

$j$ 代表目前计算层中的激活单元的下标，也将是下一层的第 $j$ 个输入变量的下标。

$i$ 代表下一层中误差单元的下标，是受到权重矩阵中第 $i$ 行影响的下一层中的误差单元的下标。

具体过程如下：

对于某一组训练数据 $x^{(i)},y^{(i)})$ ，

首先第一层的激活值 $a^{(1)}=x^{(i)}$ ，使用正向传播算法，计算出每一层的加权和 $z^{(l)}$ 和激活值 $a^{(l)}$ ，

然后利用最后一层的激活值 $a^{(L)}$ 和训练数据中的 $y^{(i)}$ 计算最后一层误差 $\delta^{(L)}=a^{(L)}-y^{(i)}$ ，

利用以下公式计算前一层的误差： $\delta^{(L-1)}=\left({\Theta^{(L-1)}}\right)^{T}\delta^{(L)}\ast g'\left(z^{(L-1)}\right)$ ，

若 $g$ 为逻辑函数， $g'(z^{(L-1)})=a^{(L-1)}·*(1-a^{(L-1)})$

继续求前一层误差，直到到第二层。

（实际上 $l$ 层误差第 $j$ 项 $\delta^{(l)}_j=\frac{\partial C}{\partial {z^{(l)}_j}}$ ，假设 $λ = 0$ ，即我们不做任何正则化处理时有： $\frac{\partial}{\partial\Theta_{ij}^{(l)}}J(\Theta)=a_{j}^{(l)} \delta_{i}^{l+1}$ ）

将所有训练数据 的加起来即为 $\frac{\partial}{\partial\Theta_{ij}^{(l)}}J(\Theta)$ ，再用梯度下降或其他优化方法即可。
在这里插入图片描述

9.3 梯度检验

对一个较为复杂的模型（例如神经网络）使用梯度下降算法时，可能会存在一些不容易察觉的错误，虽然代价看上去在不断减小，但最终的结果可能并不是最优解。为了避免这样的问题，我们采取一种叫做梯度检验 （Numerical Gradient Checking ）方法。这种方法的思想是通过估计梯度值来检验我们计算的导数值是否真的是我们要求的。

在代价函数上对于某个特定的**实数 ** $\theta$ ，沿着切线的方向，我们计算出在 $\theta-\varepsilon$ 处和 $\theta+\varepsilon$ 的代价值（ $\varepsilon$ 是一个非常小的值，通常选取 0.001），然后求两个代价的平均，用以估计在 $\theta$ 处的代价值，即：

$\frac{\partial J(\theta)}{\partial\theta_1}=\frac{J\left(\theta+\varepsilon\right)-J \left( \theta-\varepsilon \right)}{2\varepsilon}$

若 $\theta$ 是一个向量，则需要计算偏导数来检验：

$\frac{\partial J(\theta)}{\partial\theta_1}=\frac{J\left(\theta_1+\varepsilon_1,\theta_2,\theta_3...\theta_n \right)-J \left( \theta_1-\varepsilon_1,\theta_2,\theta_3...\theta_n \right)}{2\varepsilon}$

$\frac{\partial J(\theta)}{\partial\theta_2}=\frac{J\left(\theta_1,\theta_2+\varepsilon_2,\theta_3...\theta_n \right)-J \left( \theta_1,\theta_2-\varepsilon_2,\theta_3...\theta_n \right)}{2\varepsilon}$