IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【学习小记】Transformer原理理解 -> 正文阅读

[人工智能]【学习小记】Transformer原理理解

很久之前就想了解Transformer了,一直没行动。。。这次DataWhale给机会了便冲,本来想学西瓜书来着,南瓜书都准备好了。。。

以及学习内容真是一次比一次硬核,图神经网络感觉还是可以的,但这个真的。。。不然我也不会提前一天写笔记,赶在最后一晚绝对整不完呀。。。

seq2seq模型

序列到序列模型,顾名思义就是一个序列生成另一个序列。由编码器和解码器组成,其中编码器会把信息转换为一个向量(上下文context)。整个序列处理完后编码器把context发送给解码器,解码器再逐项生成输入序列中的元素。

Transformer也算是基于这样的编码器-解码器结构,故了解这个模型蛮重要的。

RNN循环神经网络和注意力机制

又是一个老是出现但是一直不太了解的概念。

如果普通的含单隐藏层的多层感知机的隐藏层输出H为下式:
在这里插入图片描述
对于含隐藏状态的循环神经网络来说就是下式:
在这里插入图片描述
最大区别就是引入了上一时间步的隐藏变量(怕以后不知道啥意思,就是输入输出中间层的输出)。

这里理解一下时间步:举例说,模型处理一个语句是一个一个单词处理的,每个单词进编码器的步骤可称为一个时间步,同理解码器吐出单词也是一个一个时间步吐。。。

这里接着讲注意力机制。注意力机制应用于解码器产生输出之前,而解码器的注意力机制步骤为:
1、查看所有接收到的编码器的 hidden state(隐藏层状态)。其中,编码器中每个 hidden state(隐藏层状态)都对应到输入句子中一个单词。
2、给每个 hidden state(隐藏层状态)一个分数(我们先忽略这个分数的计算过程)。
3、将每个 hidden state(隐藏层状态)乘以经过 softmax 的对应的分数,从而,高分对应的 hidden state(隐藏层状态)会被放大,而低分对应的 hidden state(隐藏层状态)会被缩小。

拆解Transformer

先上个总图:
在这里插入图片描述
看这个是真滴难看明白。。。所以先看下面这个图
在这里插入图片描述
直接放图,宏观上Transformer也是由编码器-解码器这样两部分组成,论文中用了各六层。其中解码器比编码器多了一层Encoder-Decoder Attention 层,这个层能帮助解码器聚焦于输入句子的相关部分(类似于 seq2seq 模型 中的 Attention)。

编码器的细节:编码器的每个子层(Self Attention 层和 FFNN)都有一个残差连接和层标准化(layer-normalization)。
在这里插入图片描述
再补一个位置编码,实在没太整明白具体的编码规则。。。总之,这个东西是用来表示序列中单词顺序的。这个东西编码器和解码器都有。

Self-attention

个人理解注意力机制概念更大些,包括self-attention啦。

直到开始写总结我才发现self-attention和attention好像不太一样=-=但attention本身就是通过一系列计算提高关注度(或者相关度)

self-attention大体流程:(往下说的都是一个head的attention)

第一步:每个词向量输入编码器后会创建三个向量,即Query 向量,Key 向量,Value 向量。这 3 个向量是词向量分别和 3 个矩阵相乘得到的,而这个矩阵是我们要学习的参数。

第二步:计算attention score,即一个单词向量的Q乘以别的单词向量的K(点积),再除以个数(为了求梯度更加稳定,也不一定是啥数)最后经过softmax层把分数归一化,使这些分数都是正数且加起来为1.

就先这些吧。。。累了。。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-19 12:04:06  更:2021-08-19 12:06:41 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/12 1:01:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码