IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Bert学习笔记(一) -> 正文阅读

[人工智能]Bert学习笔记(一)

Bert学习笔记(一)


今天主要参考https://blog.csdn.net/jiaowoshouzi/article/details/89073944这篇文章学习。

nlp基本任务

nlp大致可分为三个模块,数据集建立和预处理;文本嵌入;根据嵌入向量训练模型。其中二三点可能在有些场景中比较模糊,如可能文本嵌入后就能得到目标结果。

语言模型:对于文本Si,求P(Si)
–> 拆词得到P(Si)=P(x0,x1,…,xn)=P(x0)P(x1|x0)…P(xn|xn-1,xn-2,…,x1)
–> 假设只与前k个词相关,若n=1,P(Si)=P(x0)P(x1|x0)…P(xn|xn-1), P(xi+1|xi)=c(xi+1,xi)/c(xi)。
问题:稀疏,n取大将造成维度爆炸

NNLM

2003年提出的方法,将模型第一层参数作为词的分布式表征
输入:长度为n的文本序列
在这里插入图片描述

目标:
在这里插入图片描述即用前t-1个词预测第t个词

前向传播过程:
1.通过|V|*m维矩阵C将每个词映射为特征向量,用C(i)表示。然后将C(wt-1)…C(wt-n+1)合并成(n-1)m维的向量,V是词典。
2.该模型有一个隐藏层,上一步得到的向量x进入隐藏层处理得到:tanh(d+Hx),最后再到输出层并用softmax层得到每个词出现的概率:y=b+Utanh(d+Hx)
3.输入层也可直接与输出层连接,更新表达式为y=b+Wx+Utanh(d+Hx)

反向传播过程易得

WORD2VEC

word2vec实际是一个工具包,使用CBOW和skip-gram模型,并加入一些优化方法如Hierarchical softmax,负采样,subsampling。

CBOW:
输入:某一特征层上下文相关的词对应的词向量,通常使用one-hot编码对每个词编码,然后将所有词向量取均值。
输出:这个词的词向量,当然模型实际输出是所有词的softmax概率
向前传播过程:
输入和|V|*m维的矩阵相乘得到m维向量表示,m维向量再与m|V|维矩阵相乘得到每个特征词的概率。输入与中间层之间无激活层,输出要激活为softmax概率。而输入层的权值矩阵每一行即代表每一个词向量。中间层即是输入词语的词向量
反向传播易得

skip-gram:反过程
输入:某一词向量 输出:上下文词语概率排名,根据真正上下文之间误差做反向传播。使用中间层与输出层之间权值作为词向量表示

优化:Hierachical softmax:将词典V编码为哈夫曼树来降低维度,具体过程需要用的时候再看

其他词嵌入方法:GloVe fastText需要用的时候再看

意义:使用word2vec进行预训练,将得到的词向量再放入其他模型中训练,无需标注,且带来效果提升。是一种迁移学习。

RNN与seq2seq

RNN基本思想:每个时间节点可以看成一个MLP,参数共享,按时间顺序滑动处理每个单词。MLP有三层结构:输入层,隐藏层,输出层。输出层可以不要。隐藏层表征当前状态,状态会更新到下一个时间的MLP,从而使模型学习上下文信息
具体更新过程:
在这里插入图片描述
ht-1是上一个时间的状态,第一个时间默认状态为全0

seq2seq:编码器解码器结构,两者各是一个简单RNN
encoder所有输入编码成一个context(最后一个状态),其作为语义向量(作为decoder的输入),由decoder解码(开始状态还是全0)。
但context长度限制性能,导致语义信息不能完全表达,故引入attention机制:利用encoder的隐藏层状态ht代表输入xt的语义信息。decoder时,t=1时,c1=h1w11+h2w12+h3*w13。将c1和状态h0拼接成新的向量输入到隐藏层。w形成了不同输入对应h的注意力。每一个c1,c2,…,cn可以有选择性的吸收不同h的语义信息。

今天看到这里有点晕了,去装joern了,明天继续看attention机制。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-27 16:13:42  更:2021-07-27 16:14:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/17 20:46:48-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码