IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> [文献阅读]—Cross-lingual Language Model Pretraining -> 正文阅读

[人工智能][文献阅读]—Cross-lingual Language Model Pretraining

前言

在这里插入图片描述
论文链接:https://arxiv.org/abs/1901.07291
代码链接:https://github.com/facebookresearch/XLM

前人工作与存在问题

预训练语言模型(transformer encoder)对下游任务有帮助:

多语言向量表示的对齐工作:

本文贡献

本文属于无监督句子向量对齐工作,提出了两种无监督跨语言预训练方法,和一种有监督的方法。在分类、机翻任务上表现好,在低资源的语言上得到的困惑度(perplexity)也好。

具体方法

首先对于n种单语语料,通过图1的概率采样,来学习共有的BPE词表。
在这里插入图片描述

图1. pi是第i种语料句子所占的比例,α=0.5,用于缓解对于高资源语料的偏袒

然后提出了两种无监督的预训练方式:1. CLM 2. MLM。

  • 共有:
    • 它们的输入不是单个句子,而是文本流(text stream);
    • 1个batch有64个文本流,都来自于同一种语种,长度为256个token;
    • 1个batch中句子的采样使用BPE中的采样方法,α=0.7;
  • 特有:
    • CLM的公式如图2所示,特别的,在单语的情况下,上一个batch最后的隐藏层输出可以作为下一个batch第一个隐藏层的初始化,但在多语种共同训练的情况下不适用;
    • MLM和bert的不同:1. 文本流;2. 对于token的采样仿照Distributed Representations of Words and Phrases and their Compositionality使用了多项式分布,其权重和逆词频的平方根成正比;MLM和bert的相同:从文本流中采样15%的token,80%的进行mask,10%不变,10%替换成任意token;
      在这里插入图片描述
图2. CLM training object

最后提出了一种有监督的进一步对齐的方式,从而能够利用好平行语料(TLM,如图3所示)。具体来说,把平行的句子进行拼接,同时掩膜source和target端的部分,这使得:例如,在预测source端时,source端剩下的token并不足以使模型预测出mask,此时模型可以利用target端的信息。pair的采样也是使用BPE中的方法。
在这里插入图片描述

图3. TLM training object

具体实验

跨语言分类:

  • 做法:
    • 使用MLM在大规模单语语料上预训练,取[CLS]作为句子向量表示,再在ENGLISH XNLI数据集上训练分类器。(XLM(MLM))
    • 使用MLM在大规模单语语料上预训练、同时交替地在平行语料上训练TLM,取[CLS]作为句子向量表示,再在ENGLISH XNLI数据集上训练分类器。(XLM(MLM+TLM))
    • 进一步使用 English MultiNLI -> XNLI训练encoder/decoder(TRANSLATION-TRAIN)
    • 进一步使用 XNLI -> English MultiNLI训练encoder/decoder(TRANSLATION-TEST)
  • 结论:
    • MLM和TLM都好
    • 在swahili和urdu这些低资源语料上好
    • 把English MultiNLI翻译成XNLI能进一步促进对齐
  • 疑问:
    • 为什么没有CLM的实验?
      在这里插入图片描述
      图4. 跨语言分类

无监督机器翻译:

  • 做法:
    • 采用combined BPE预训练embeddings,然后通过denoising auto-encoding(DAE)和online back-translation loss进行训练。(EMB+EMB)
    • 其他分别使用CLM和MLM对encoder和decoder初始化的组合。
  • 结论:
    • MLM\CLM > EMB
    • MLM>CLM
    • encoder>decoder
  • 疑问:
    • online back-translation loss所使用的平行语料来自哪里?1. BPE训练完以后,进行BPE BY BPE TRANSLATION? 2. 还是使用word by word translation?
      在这里插入图片描述
图5. 无监督机器翻译

有监督机器翻译:

  • 做法
    • 单向翻译(Romanian2english)
    • 双向翻译(?)
    • 双向翻译+back translation(?+BT)
  • 结论:
    • MLM>CLM
    • back translation进一步促进结果
  • 疑问:
    • ro->en中的CLM和MLM预训练是需要多语,还是encoder只需要用ro,decoder只需要用en?
    • 双向翻译具体是如何训练?其BELU值是如何计算?
    • BT中使用的source句子就是pretrain的单语句子,具体的训练方式?
      在这里插入图片描述
图6. 有监督机器翻译

低资源语言模型:

  • 做法:
    • 仅在Nepali训练集上训练,然后在训练集上计算perplexity(Nepali)
    • 加上不相似的english训练集(Nepali+English)
    • 加上相似的Hindi训练集(Nepali+Hindi)
  • 结论:
    • 相似的语料具有共有的符号和…,更好

在这里插入图片描述

图7. 低资源语言模型

无监督跨语言词嵌入:

  • 做法:使用对抗训练一文中产生的word translation dictionary来评估以下三种方法的对pair的 1. cosine sim 2. L2 dist ; 以及和SemEval 17单词相似任务的皮尔逊系数。
    • 对抗训练(MUSE)
    • combined BPE(Concat)
    • 本文(XLM)
  • 结论:
    • XLM牛
      在这里插入图片描述
图8. 无监督跨语言词嵌入

其它资源(数据集\工具包)

CLM和MLM预训练所使用的单语语料:WikiExtractor
TLM所使用的平行语料:

生词&生句

  • a surge of interest:兴趣的激增
  • concurrent to our work:与我们的工作同时进行
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-22 10:56:24  更:2021-10-22 10:58:50 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 10:08:12-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码