IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 循环神经网络知识框架 -> 正文阅读

[人工智能]循环神经网络知识框架

循环体现在哪里?

体现在隐藏层之间的连接中。普通神经网络的隐藏层没有连接。RNN为了提取时序数据之间的关系,让 t t t 时刻的隐藏层状态受到上一时刻 h t ? 1 h_{t-1} ht?1? 的影响。

在这里插入图片描述
在时间上展开:

在这里插入图片描述

h t = f ( U h t ? 1 + W x t + b ) h_t = f(Uh_{t-1}+Wx_{t}+b) ht?=f(Uht?1?+Wxt?+b)

可以看出公式中蕴含的递归关系。 h 0 h_0 h0? 需要初始化。

RNN的几种应用

RNN输出什么?

p y t o r c h pytorch pytorch 为例,输出两个值。

  • t t t 个时刻的最后一层隐藏层状态。
  • 最后一个时刻的各个循环层的状态。
    在这里插入图片描述

用这些输出可以做什么?

序列到类别

每个 h t h_t ht? 代表着该时刻的信息和历史信息。

可以认为 h T h_T hT? 蕴藏着整个序列的信息。将它作为一个分类器的输入,可以输出标签。(也可以同时应用 h 1 h_1 h1?~ h T h_T hT?

在这里插入图片描述

序列到序列

输入序列和输出序列长度相同,如文本标注。利用每个 h t h_t ht?

在这里插入图片描述
输入和输出长度不同,如翻译。利用 h T h_T hT?

编码:得到 h T h_T hT?

解码:输出各个 y y y

在这里插入图片描述

参数学习问题

需要学习的参数:

输入层到隐藏层的权重 W W W、偏置 b b b;

隐藏层之间的权重 U U U、偏置 b b b

时间间隔较长时,容易出现梯度爆炸或梯度消失。

简单解决方法:当梯度超过某个阈值时就截断。

门控循环神经网络

目的:控制信息积累速度,解决长程依赖。

LSTM

遗忘门、输入门、输出门

在这里插入图片描述
普通RNN中 f ( U h t ? 1 + w t x t + b ) f(Uh_{t-1}+w_tx_t+b) f(Uht?1?+wt?xt?+b) 直接输出下一刻的隐藏层。LSTM中输出的只能算候选状态。候选状态通过输入门,上一时刻 c e l l cell cell 通过遗忘门,共同构成此刻 c e l l cell cell。之后生成隐藏状态。

“门”的参数也需要训练,是 U h t ? 1 + w t x t + b Uh_{t-1}+w_tx_t+b Uht?1?+wt?xt?+b 通过 L o g i s t i c Logistic Logistic 变换得到。

对比简单RNN

与简单的RNN网络模型比,LSTM不是仅仅依靠快速变化的hidden state的信息去产生预测,而是还利用了记忆细胞 cell 进行长程记忆。

关键就是最上层的记忆细胞,是一个近似线性流,信息衰减很弱

在这里插入图片描述

比如有一个有长程依赖的待预测数据:

I grew up in France… I speak fluent ().

当LSTM读到 ‘France’ 后,就把 ‘France’ 的信息存在记忆细胞特定的位置上,再经过后面的时间步时,这个France的信息会因为遗忘门的乘法而冲淡,但是要注意,这个冲淡的效果很弱,如果冲刷记忆的效果太强那就和简单的RNN类似了(可能有人要问,要把这个冲刷的强度置为多少呢?答:这是LSTM自己学出来的),当LSTM读到fluent时,结合记忆细胞中France的信息,就预测出French的答案。

GRU网络

与 LSTM 的区别:

  • 只有两个门:update gate 和 reset gate
  • 直接传递隐藏状态 h h h h t ? 1 h_{t-1} ht?1? r t r_t rt? 相乘得到new memory。(LSTM用记忆细胞 cell 将 h h h 其包装)

在这里插入图片描述
GRU的参数更少。

拓展

多层RNN

在这里插入图片描述

双向RNN

第一层按时间顺序,第二层按时间逆序,最后拼接。

h t h_{t} ht? 中含有双向信息。

在这里插入图片描述
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-12-07 12:01:51  更:2021-12-07 12:02:26 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 0:48:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码