IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> LSTM总结和感悟 -> 正文阅读

[人工智能]LSTM总结和感悟

????????这是在看了台大李宏毅教授的课程之后的一点总结和感想。本文中所使用的图片均来自于李宏毅教授的课程ppt。本篇博客就是对视频的一些记录加上了一些个人的思考。

?一、什么是LSTM

????????长短期记忆(Long short-term memory, LSTM)是一种特殊的RNN,主要是为了解决长序列训练过程中的梯度消失问题。简单来说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。

二、单个LSTM单元的结构

(1)?LSTM单元由四个输入和一个输出组成,输入分别是图中的Z、Zi、Zf、Zo,而输出是图中对应的a。其中输入Zi(输入门)、Zf(遗忘门)、Zo(输出门)分别对应LSTM的三个门。?

(2)Z、Zi、Zf、Zo? 的由来:首先将当前的输入向量input与上一轮得到的输出向量a拼接得到一个较长的向量[input,a],暂且称为向量X;将拼接后的向量X经过四次不同的线性变换后即可得到向量Z、Zi、Zf、Zo,其中四次线性变换所使用的参数是网络中带训练的参数。

(3)Z、Zi、Zf、Zo的维数是一样的,Zf 的每一维分别对应一个具体的LSTM单元遗忘门的输入,Zi 的每一维分别对应一个具体的LSTM单元输入们的输入(Z和Zo同理),因此Z、Zi、Zf、Zo的维数和LSTM单元的个数相同。

(4)LSTM单元中有一个memory? cell,该部件主要是存储此刻的输入input之前的所有输入的综合信息

三、LSTM的数据处理流程

preview

????????图中的Xt对应t时刻的输入,ht-1对应t-1时刻的输出。假设神经网络的该层是由hidden_size个LSTM排列形成的;该层的输入X的维数是input_size;ht-1是该层之前时刻的输出,故维数和LSTM的个数相同,也是hidden_size维;Ct-1的维数也和LSTM的个数相同是hidden_size维。

? ? ? ? LSTM的数据处理流程如下:

(1)ht-1和Xt拼接形成一个维数是hidden_size+input_size的向量,暂且称为向量IN

(2)向量IN经过四次线性变换后的到Z、Zi、Zf、Zo(即向量IN右乘四个不同的矩阵,即向量IN经过四个不同的全连接层)。参与四次线性变化的参数是一个二维矩阵,形状是[hidden_size+input_size,? hidden_size]。得到的四个向量的维数是hidden_size维。

(3)使向量Zi、Zf、Zo通过sigmoid函数激活,使用sigmoid激活后值会处于0~1之间;使向量Z通过tanh函数激活。

(4)将激活后的Zi与Z进行按位置计算的乘法,由于Zi的值都介于0~1之间,因此得到的结果记为It,可以理解为允许多少输入进入LSTM单元。

(5)将激活后的Zf与Ct-1进行按位置计算的乘法,结果记为Ct-1_temp,该结果可以理解为之前的信息我该保留多少。

(6)将向量Ct-1_temp与向量It进行按位置的加法,形成新的Ct。

(7)将Ct通过tanh函数激活,将激活后的结果与Zo进行按位置操作的乘法形成ht

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-05 17:21:26  更:2021-08-05 17:24:12 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/17 22:27:22-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码