IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> NLP实习面试准备-RNN专题(四)-LSTM-GRU -> 正文阅读

[人工智能]NLP实习面试准备-RNN专题(四)-LSTM-GRU

1. LSTM如何解决普通神经网络具有的长期依赖问题?

对于一般的循环神经网络,某一时刻的输出仅与当前时刻以及前几个时刻的输入和状态具有强相关性,随着时间序列长度的增加,序列中间隔很远的具有相关性的词汇无法通过网络学习到。即长期依赖问题。
LSTM(Long Short Time Memory)在原有网络的基础上加入了一个新的cell state。使得不同时刻具有了可变的连接权重。缓解了普通神经网络的梯度消失和梯度爆炸的问题。LSTM在每一时刻具有两个状态:hidden state(短期状态单元)和cell state(长期状态单元)。两种状态相互配合形成长短期记忆机制。
LSTM的核心思想是利用门控单元控制信号的传递。主要又输入门 i t i_t it?, 遗忘门 f t f_t ft?, 输出门 o t o_t ot?。可以将之看做为三个向量,向量中的每个值都处于0~1之间。三个门控单元都由输入 x t x_t xt?和上一时刻状态 h t ? 1 h_{t-1} ht?1?以及参数矩阵计算得到。
得到三个门之后通过下面三个公式更新hidden state和cell state:
c ~ t = Tanh ( W c x t + U c h t ? 1 + b c ) (1) \tilde{c}_t = \textbf{Tanh}(W_cx_t+U_ch_{t-1}+b_c) \tag1 c~t?=Tanh(Wc?xt?+Uc?ht?1?+bc?)(1)
c t = f t ⊙ c t ? 1 + i t ⊙ c ~ t (2) c_t=f_t \odot c_{t-1}+i_t \odot \tilde{c}_t \tag2 ct?=ft?ct?1?+it?c~t?(2)
h t = o t ⊙ Tanh ( c t ) (3) h_t=o_t \odot \textbf{Tanh}(c_t) \tag3 ht?=ot?Tanh(ct?)(3)
总之LSTM改变了循环神经网络中信息和梯度的传播方式。解决了长期依赖问题。

2. GRU如何用两个门控单元来控制时间序列的记忆及遗忘行为?

GRU(Gated Recurrent Unit)是2014年提出的,相比一般的LSTM、GRU具有更少参数和计算量。
不同于LSTM,GRU只有一个隐藏状态单元 h t h_t ht?,并且只有两个门控单元:重置门 r t r_t rt?和更新门 z t z_t zt?每个门控单元的输入包括当前时刻的序列信息以及上一时刻的状态信息。
r t = σ ( W r x t + U r h t ? 1 ) (4) r_t=\sigma(W_rx_t+U_rh_{t-1}) \tag4 rt?=σ(Wr?xt?+Ur?ht?1?)(4)
z t = σ ( W z x t + U z h t ? 1 ) (5) z_t=\sigma(W_zx_t+U_zh_{t-1}) \tag5 zt?=σ(Wz?xt?+Uz?ht?1?)(5)
其中重置门决定了计算新的隐藏状态时是否忽略上一时刻的隐藏状态单元。更新门则是控制当前隐藏状态单元被新的隐藏状态更新的程度。
h ~ t = Tanh ( W h x t + U h ( r t ⊙ h t ? 1 ) ) (6) \tilde {h}_t=\textbf{Tanh}(W_hx_t+U_h(r_t\odot h_{t-1})) \tag6 h~t?=Tanh(Wh?xt?+Uh?(rt?ht?1?))(6)
h t = ( 1 ? z t ) h t ? 1 + z t h ~ t (7) h_t=(1-z_t)h_{t-1}+z_t \tilde{h}_t \tag 7 ht?=(1?zt?)ht?1?+zt?h~t?(7)
GRU相对于LSTM具有更好的性能以及更快的收敛速度。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-15 15:32:20  更:2021-08-15 15:37:31 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/12 1:05:42-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码