IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> DEBERTA: DECODING-ENHANCED BERT WITH DIS- ENTANGLED ATTENTION glue榜首论文解读 -> 正文阅读

[人工智能]DEBERTA: DECODING-ENHANCED BERT WITH DIS- ENTANGLED ATTENTION glue榜首论文解读

一、概览

在这里插入图片描述

二、详细内容

  1. abstract
    a. 两个机制来improve bert和 roberta
    ⅰ. disentangled attention mechanism
    ⅱ. enhanced mask decoder
    b. fine-tuning阶段
    ⅰ. virtual adversarial training -> 提升泛化
    c. 效果
    ⅰ. 对nlu和nlg下游任务,提升都比较大
    ⅱ. 用一半的训练数据,效果就比roberta-large好了
    ⅲ. 48层的deberta,在21年6月登顶superGLUE
  2. introduction
    a. Disentangled attention(分散注意力)
    ⅰ. content embedding+相对位置embedding
    ⅱ. 所以强调的是相对位置?
    b. Enhanced mask decoder
    ⅰ. 出发点:预测mask的时候,有时候绝对位置也非常重要,这里引入绝对位置来辅助预测mask的token
    ⅱ. DeBERTa在softmax层之前引入了绝对单词位置嵌入,其中模型基于单词内容和位置的聚合上下文嵌入来解码被屏蔽的单词
    c. 对抗训练来提升fine-tuning下游任务的泛化能力
  3. background
    a. transformer
    ⅰ. 标准的self-attention缺乏有效的机制去编码位置信息
    ⅱ. 有论文显示相对位置编码比绝对位置编码更有效
    ⅲ. mlm:mask 15% token来预测
    1. 10%不变,10%随机词,80% mask
      b. deberta
      ⅰ. input
    2. 每个位置有个{Hi, Pi|j}:代表content和相对位置信息
    3. cross attention score:
    4. 感觉就是把他们分开了,并且结合了content-to-position的信息
      ⅱ. enhanced mask decoder accounts for absolute word positions
    5. 又来考虑绝对位置信息?
    6. 出发点:只用相对位置,不用绝对位置信息也是不够的
    7. 如何编码绝对位置?
      a. bert是在最开始的时候,利用了绝对的位置编码信息
      b. deberta是在encoder了后,softmax之前,才用了绝对的位置信息
      c. 总结一下,transformer层的时候,用相对位置信息,要decode mask的时候了,才添加绝对位置信息作为补偿信息,所以叫enhanced mask decoder
  4. scalue-invariant fine-tuning
    a. 正则化方法去提高泛化
    b. perturbation:扰动?
    c. 方法:在normalized的word embedding中添加扰动来实现
    d. SiFT first normalizes the word embedding vectors into stochastic vectors, and then applies the perturbation to the normalized embedding vectors
    e. SiFT首先将单词嵌入向量归一化为随机向量,然后将扰动应用于归一化的嵌入向量
  5. 实验
    a. NLI比roberta_base高1个点,squad比roberta_base高2-3个点

5.1 base模型对比:

在这里插入图片描述

5.2 消歧实验:
● 位置信息的作用
在这里插入图片描述

● 扰动的作用
在这里插入图片描述

● 附录:

  1. roberta比较
    在这里插入图片描述

  2. attention矩阵观察
    在这里插入图片描述

  3. fine-tuning阶段variance也小一些
    在这里插入图片描述

三、其他参考

【NLP笔记】GLUE榜首DeBerta解读
https://zhuanlan.zhihu.com/p/348522530

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-16 22:21:38  更:2022-03-16 22:22:35 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 14:57:32-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码