IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> [文献阅读]—Deep Transformers with Latent Depth -> 正文阅读

[人工智能][文献阅读]—Deep Transformers with Latent Depth

前言

在这里插入图片描述
论文地址:https://proceedings.neurips.cc/paper/2020/file/1325cdae3b6f0f91a1b629307bf2d498-Paper.pdf

前人工作&存在问题

由于transformer在多语言MT、跨语言PT、和多任务上的应用,模型容量需要被扩大。
然而,transformer不是越深越好(梯度消失)。具体的,在多语言\任务上,如何增大模型容量,同时保证语言、任务之间有正向的迁移,是一个开放的命题。

本文贡献

训练隐变量,用隐变量的采样来选择模型层,来提高模型的深度。

具体做法

layer selection

transformer中的某一层的某一个sublayer长这样(用的是pre-norm而非post-norm):

在这里插入图片描述

公式1 sublayer

对于某一层(包含多个sublayer),模型训练一个分布(对应的模型参数是z),然后从该分布抽样一个实数,代表选择该层的一个系数。

在这里插入图片描述

公式2 layer selection

此时,模型的训练目标是最大化条件概率p(y|x;θ,z)。然而,“Marginalizing over z becomes intractable when l grows large”,因此需要使用变分推理(variational inference),取得ELBO。
在这里插入图片描述

公式3 ELBO

由公式3右边第一项可知,模型训练时需要输入具体的z,来计算p(y|x, z),这就涉及到了采样。文章使用gumbel-softmax重参数化发来使得这一过程可微。具体来说,额外定义一个
gumbel distribution(G(0, 1)),对它进行采样,而模型只需为每一个语种、每一层定义一个二维的参数:[α1,α2],利用gumbel distribution的特性,来间接完成采样。另外,随着temperature hyperparameter(τ)不断趋向于0,采样出来的结果会更加离散(hard\discrete)。
在这里插入图片描述

公式4 gumbel-softmax reparameterization

另外,对于公式3的右边第二项,我们需要假设一个理想的分布p(z),让模型参数z的分布通过KL散度去拟合它。文中说:使用共轭先验分布β(a,b)可以控制参数z(a=b=1是一个均匀的先验,a>b会让z向选择更多的层进行优化,a<b会让z向跳过更多的层进行优化)(文章使用aggregated posterior(不懂)来作为先验)。

在这里插入图片描述

公式5 aggregated posterior

在这样的设置下,模型第 l 层的梯度计算如下,后续的实验会证明起到了normalization的作用:
在这里插入图片描述

公式6 第 l 层的梯度

考虑多种语言,有两种策略:1. 为每一种语言单独学习一套参数z;2. 定义一个同一的网络,输入一个语言embedding,得到一套对应的参数z。文中说,虽然策略2能够学习到语言的共性(commonality),但会带来额外 N x d的参数量。

最后,引入对模型层数的监督(层数看似是确定的,但会影响inference的速度)。得到最终的loss。

在这里插入图片描述

公式7 loss

具体实验

是否解决的梯度消失问题?

en-de翻译

MLM预训练

多语言机器翻译

KL散度项中不同先验的影响

KL散度在loss中不同的权重影响

隐式的层数 vs 静态的层数

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-12-26 22:09:34  更:2021-12-26 22:11:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 23:16:10-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码