一、RNN出现的意义

我们所熟悉的CNN，它的输出都是只考虑前一个输入的影响而不考虑其它时刻输入的影响（即只能单独去处理一个又一个的输入）

但是, 对于一些与时间先后有关的, 一序列的信息（即前后输入是有关系的），比如进行文档前后文内容的预测等等, 这时候CNN的效果就不太好了。

而我们人的认知是基于过往的经验和记忆的，以此观点和对上述CNN不足的弥补，设计了不仅考虑前一时刻的输入,还能记忆网络前面的内容的循环神经网络——RNN。

二、RNN原理

1、RNN模型结构和前向传播

RNN由输入层，隐藏层和输出层组成。

其中x，s，o都是向量，分别是输入层的值，隐藏层的值和输出层的值。

U是输入层到隐藏层的权重矩阵，V是隐藏层到输出层的权重矩阵，W是隐藏层上一次的值作为这一次的输入的权重矩阵。

公式如下：

$\begin{array}{l} O_{t}=g\left(V \cdot S_{t}\right) \\ S_{t}=f\left(U \cdot X_{t}+W \cdot S_{t-1}\right) \end{array}$

其中f和g是激活函数，f可以是tanh,relu,sigmoid等激活函数，而g通常是softmax。

在这里U，V，W是不变的（到反向传播再变，这里只为了强调变量是后面那3个），变的是Xt，St-1和St，这里的W*St-1就是上一时刻的值的影响（正所谓过去的记忆）加入。

具体来说如下图所示按时间来展开

?2、反向传播

?每一次的输出值Ot都会产生一个误差值Et

而损失函数既可以使用交叉熵损失函数也可以使用平方误差损失函数

首先让我们看一下公式：

🎈总的误差

$E=\sum_{t} e_{t}$

🎈参数梯度求法

$\nabla U=\frac{\partial E}{\partial U}=\sum_{t} \frac{\partial e_{t}}{\partial U}$

$\nabla V=\frac{\partial E}{\partial V}=\sum_{t} \frac{\partial e_{t}}{\partial V}$

$\nabla W=\frac{\partial E}{\partial W}=\sum_{t} \frac{\partial e_{t}}{\partial W}$

由上面的公式我们可以得出他的含义：每个时刻的偏差的偏导数之和（U，V，W都是这样）

我们就以W为参照：

🌳首先将公式用链式法则展开

$\frac{\partial E_{t}}{\partial W}=\frac{\partial E_{t}}{\partial o_{t}} \frac{\partial o_{t}}{\partial s_{t}} \frac{\partial s_{t}}{\partial W}$

🌳然后由刚刚的式子 $s_{t}=f\left(U x_{t}+W s_{t-1}\right)$ 代入，并且发现st与前面的所有时刻的s都有直接或间接的关系，可以得到下面的公式：

$\frac{\partial E_{t}}{\partial W}=\sum_{k=0}^{t} \frac{\partial E_{t}}{\partial o_{t}} \frac{\partial o_{t}}{\partial s_{t}} \frac{\partial s_{t}}{\partial s_{k}} \frac{\partial s_{k}^{+}}{\partial W}$

V和U的公式如下

$\frac{\partial E_{t}}{\partial V}=\frac{\partial E_{t}}{\partial O_{t}} * \frac{\partial O_{t}}{\partial V}$

$\frac{\partial E_{t}}{\partial U}=\sum_{k=0}^{t} \frac{\partial E_{t}}{\partial o_{t}} \frac{\partial o_{t}}{\partial s_{t}} \frac{\partial\left(W^{t-k} a_{k}\right)}{\partial U}$