IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 循环神经网络RNN -> 正文阅读

[人工智能]循环神经网络RNN

目录

RNN
LSTM
- 梯度消失
- LSTM基本结构
其他RNN
参考

RNN

RNN的发展

在这里插入图片描述

RNN和Markov模型

共同点

描述数据时间上的依存关系

Markov模型的局限性

仅对有限离散状态的描述
仅描述当前时刻和前一时刻之间关系（无记忆性）
隐藏层数的增加不会让模型状态值更复杂

一般结构

在这里插入图片描述
其中：

$x_t$ :t时刻输入
$s_t$ :t时刻记忆（隐藏层）
$o_t$ :t时刻输出
$U, W, V$ :连接权重
$b$ :偏置
$\sigma$ :激活函数，通常选tanh或sigmoid
$\psi$ :通常选softmax

基础RNN

Jordan Network

在这里插入图片描述

Elman Network

在这里插入图片描述
在Jordan network基础上简化：

隐藏层之间传递
context unit无自循环

这个结构也是LSTM的基础结构

其他RNN结构

在这里插入图片描述

RNN训练方法——BPTT

BPTT（Error Back Propagation through Time）

思路：定义损失函数 Loss 来表示输出值 $\hat y$ 和真实标签 $y$ 的误差，通过链式法则自顶向下求得Loss对网络权重的偏导。沿梯度的反方向更新权重的值，直到Loss收敛。

$s_t=tanh(Ux_t+Ws_{t?1})$ $\hat y_t=softmax(Vs_t)$ $Loss=\sum E_t(y_t,\hat y_t)=?\sum y_tlog\hat y_t$
步骤：
- 计算损失函数
- 计算损失函数对V的偏导 $\frac{\partial E}{\partial V}=\sum_t\frac{\partial E_t}{\partial V}=\sum_t \frac{\partial E_j}{\partial \hat y_j}\frac{\partial \hat y_j}{\partial s_j}\frac{\partial s_j}{\partial V}$
- 计算损失函数对W的偏导 $\frac{\partial E}{\partial W}=\sum_t\frac{\partial E_t}{\partial W}=\sum_t\sum_{k=0}^j \frac{\partial E_j}{\partial \hat y_j}\frac{\partial \hat y_j}{\partial s_j}(\prod_{i=k+1}^j\frac{\partial s_i}{\partial s_{i-1}})\frac{\partial s_k}{\partial W}$
- 计算损失函数对U的偏导 $\frac{\partial E}{\partial U}=\sum_t\frac{\partial E_t}{\partial U}=\sum_t \sum_{k=0}^j \frac{\partial E_j}{\partial \hat y_j}\frac{\partial \hat y_j}{\partial s_j}\frac{\partial s_j}{\partial s_k}\frac{\partial s_k}{\partial U}$
- 反向更新权重

LSTM

梯度消失

原因：
- 反向传播算法采用梯度下降方法寻优
- 采用tanh激活函数
解决方法：
- 采用ReLU激活函数
- 引入“门”机制对细胞状态信息进行添加或删除（LSTM）

LSTM基本结构

在这里插入图片描述

一个LSTM单元由输入门、输出门和遗忘门组成，三个门控制信息进出单元。 “门”机制由一个Sigmoid激活函数层和一个向量点乘操作组成。

遗忘门：控制遗忘程度 $f_t=\sigma(W_f\cdot[h_{t?1},x_t]+b_f)$
输入门：控制信息接收程度 $i_t=\sigma(W_i\cdot[h_{t?1},x_t]+b_i)$ $\tilde C_t = tanh(W_C\cdot[h_{t?1},x_t]+b_C)$
输出门：控制输出认可程度 $o_t=\sigma(W_o\cdot[h_{t?1},x_t]+b_o)$

状态更新： $C_t=f_t?C_{t?1}+i_t? \tilde C_t$ $h_t=o_t?tanh(C_t)$

其他RNN

名称	时间	结构	特点
Gated Recurrent Unit（GRU）	2014		细胞结构本身和隐藏层重合; 仅有重置门和更新门
Peephole LSTM	2014		门层受细胞状态C、隐层信息h、输入状态x三个参数影响
Bi-directional RNN（BRNN）	1997		当前时间点受前后时间影响（上下文）

参考

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2021-12-02 16:45:14 更:2021-12-02 16:46:04

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/30 9:57:26-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码