RNN（Recurrent Neural Network）

$h_t = tanh(W^{xh}x_{t}+b^{xh}+W^{hh}h_{t-1}+b^{hh})$
$y=softmax(W^{hy}h_{n}+b^{hy})$
在这里插入图片描述
如果是文本分类问题，可以只在最后进行输出结果，如下图所示：

??除此之外，还可以在每一时刻进行输出，可以用来处理序列标注问题，比如词性标注，NER，甚至分词。

LSTM（Long Short-Term Memory ）

??由于在普通的RNN结构中，信息是通过隐含层逐层进行传递的，这样每传递一层就会导致信息的损失，由此出现了长短时记忆网络。

??为了不只是相邻两层有消息传递，有：

$u_t = tanh(W^{xh}x_{t}+b^{xh}+W^{hh}h_{t-1}+b^{hh})$
$h_t=h_{t-1}+u_t$

即： $h_t=h_{t-1}+u_t=h_{t-2}+u_{t-1}+u_{t}=....=h_1+u_1+...+u_t$

这样保证了对于 $k < t$ ,将 $h_k$ and $h_t$ 连接了起来。

考虑到二者不应该知识线性的加权，所以引入了权重：

$f_t = \sigma(W^{f,xh}x_{t}+b^{f,xh}+W^{f,hh}h_{t-1}+b^{f,hh})$
$h_t = f_t\otimes h_{t-1} + (1-f_t) \otimes u_t$

??其中， $\sigma$ 是sigmoid函数，通过该函数得到0-1之间的值，可以看作是权重。当值过小时，可以看作是将 $h_t$ 的知识给遗忘了，因此 $f_t$ 也被称作是遗忘门。同时发现，两项的系数成反比，对于有时候是正比的情况下，所以需要改进 $u_t$ 的权重系数。

有：
$i_t = \sigma(W^{i,xh}x_{t}+b^{i,xh}+W^{i,hh}h_{t-1}+b^{i,hh})$
$h_t = f_t\otimes h_{t-1} + i_t \otimes u_t$

??其中 $i_t$ 用来控制输入变量 $u_t$ 的贡献，被称作是输入门

有了遗忘门控制过去时刻的贡献，输入门控制现在输入变量的贡献，下面引进输出门控制输出。

$o_t = \sigma(W^{o,xh} x_{t}+b^{o,xh}+W^{o,hh}h_{t-1}+b^{o,hh})$
$c_t = f_t \otimes c_{t-1} + i_t \otimes u_t$
$h_t = o_t \otimes tanh(c_t)$

其中，c-t被称为记忆细胞，即存储了截至到当前时刻的2所有重要信息。

BiLSTM

??我们发现了，无论是传统的RNN还是LSTM，都是从前往后传递信息，这在很多任务中都有局限性，比如词性标注任务，一个词的词性不止和前面的词有关还和后面的词有关。

??为了解决该问题，设计出前向和方向的两条LSTM网络，被称为双向LSTM，也叫BiLSTM。其思想是将同一个输入序列分别接入向前和先后的两个LSTM中，然后将两个网络的隐含层连在一起，共同接入到输出层进行预测。
在这里插入图片描述另外一种对RNN改进的方式是通过将多个网络堆叠起来，形成stacked Rnn.