前言
论文地址:https://aclanthology.org/2020.emnlp-main.214.pdf 代码地址:https://github.com/alexandra-chron/relm_unmt
前人工作&存在问题
对于高单语资源(HMR)和低单语资源(LMR)之间的UNMT,直接在共享词表上做预训练初始化效果不好。
本文贡献
通过先在HMR上预训练,再在LMR+HMR上"fine-tune"的方式,完成UNMT的初始化。
具体方法
第一步:在HMR上预训练LM
第二步:在HMR+LMR上BPE分词,得到的LMR词表加入到总词表中,在LMR+HMR上finetune LM,然后做UNMT
具体实验
UNMT
XLM差原因是:在HMR+LMR上进行LM预训练,还没有处理完HMR,就在LMR上过拟合了
图1 UNMT
NMT
200K的parallel data使得XLM和RE-LM差不多,RE-LM的增益仅体现在低资源情况下
图2 NMT
在HMR预训练之后,是在LMR还是LMR+HMR上finetune好?
RE-LM:finetune whole model on LMR带来灾难性遗忘,特别在不相似的语言对上; adapters RE-LM:finetune embedding+adapter on LMR既保留了HMR的信息,又关注了LMR,效果更好,特别对于有部分词汇重叠的En-Sq(?);
图3 finetune方式
LMR的词表加入程度
BPE合并操作越多,新增LMR的词汇越多,UNMT性能越高
图4 LMR的词表加入程度对UNMT的影响
图5 LMR的词表加入程度
疑问
- En用latin字母表,Mk用Cyrillic字母表
|