   ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

[人工智能]ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information



我们提出了 ChineseBERT,它将汉字的字形和拼音信息结合到语言模型预训练中




对于前者,使中文与英语、德语等语言区分开来的一个关键方面是汉语是一种表意语言。 字符的语标对语义信息进行编码。 例如,“液(液)”、“河(河)”、“湖(湖)”都有部首“氵(水)”,表示它们在语义上都与水有关直观地说,汉字字形背后丰富的语义应该增强中文 NLP 模型的表达能力。



同一个字符的不同发音不能通过字形嵌入来区分,因为它是相同的,或者 char-ID 嵌入,因为它们都指向相同的字符 ID,但可以用拼音来表征。


我们提出了 ChineseBERT,一种将汉字的字形和拼音信息融入到大规模预训练过程中的模型。



达到SOTA,state of the art

Related work



Xiaoya Li, Y uxian Meng, Xiaofei Sun, Qinghong Han, Arianna Y uan, and Jiwei Li. 2019b. Is word segmentation necessary for deep learning of Chinese representations?

Y onghui Wu, Mike Schuster, Zhifeng Chen, Quoc V . Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Y uan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, ?ukasz Kaiser, Stephan Gouws, Y oshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Y oung, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, and Jeffrey Dean. 2016. Google's neural machine translation system: Bridging the gap between human and machine translation.

Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Neural machine translation of rare words with subword units.

Y u Sun, Shuohuan Wang, Y ukun Li, Shikun Feng, Xuyi Chen, Han Zhang, Xin Tian, Danxiang Zhu, Hao Tian, and Hua Wu. 2019. Ernie: Enhanced representation through knowledge integration.

使用 Whole Word Masking 策略预训练模型,其中一个中文单词中的所有字符都被完全屏蔽。
Yiming Cui, Wanxiang Che, Ting Liu, Bing Qin, Ziqing Y ang, Shijin Wang, and Guoping Hu. 2019a. Pre-training with whole word masking for chinese bert.

Zhengyan Zhang, Xu Han, Hao Zhou, Pei Ke, Y uxian Gu, Deming Y e, Y ujia Qin, Y usheng Su, Haozhe Ji, Jian Guan, Fanchao Qi, Xiaozhi Wang, Y anan Zheng, Guoyang Zeng, Huanqi Cao, Shengqi Chen, Daixuan Li, Zhenbo Sun, Zhiyuan Liu, Minlie Huang, Wentao Han, Jie Tang, Juanzi Li, Xiaoyan Zhu, and Maosong Sun. 2020. Cpm: A large-scale generative chinese pre-trained language model.

Liang Xu, Hai Hu, Xuanwei Zhang, Lu Li, Chenjie Cao, Y udong Li, Y echen Xu, Kai Sun, Dian Y u, Cong Y u, Yin Tian, Qianqian Dong, Weitang Liu, Bo Shi, Yiming Cui, Junyi Li, Jun Zeng, Rongzhao Wang, Weijian Xie, Y anting Li, Yina Patterson, Zuoyu Tian, Yiwen Zhang, He Zhou, Shaoweihua Liu, Zhe Zhao, Qipeng Zhao, Cong Y ue, Xinrui Zhang, Zhengliang Y ang, Kyle Richardson, and Zhenzhong Lan. 2020. CLUE: A Chinese language understanding evaluation benchmark.


使用带索引的部首嵌入来捕获字符语义,从而提高模型在各种中文 NLP 任务上的性能

不再一 一展开




对于每个汉字,首先将其字符嵌入char embedding、字形嵌入glyph embedding和拼音嵌入pinyin embedding串联起来,然后通过一个全连接层映射到一个D维的embedding,形成 Fusion embedding。

然后将融合嵌入与position embedding一起添加,作为 BERT 模型的输入,由于我们不使用 NSP 预训练任务,因此我们省略了segment embedding



位置嵌入position embedding + 融合嵌入 fusion embedding

字符嵌入char embedding:类似token embedding

字形嵌入glyph embedding:将各个字体(仿宋、行楷、隶书)图片24*24通过cnn向量化

拼音嵌入pinyin embedding:我们在拼音序列上应用宽度为 2 的 CNN 模型,然后进行最大池化以得出最终的拼音嵌入。
输入的拼音序列长度固定为 8,当拼音序列的实际长度未达到 8 时,剩余槽位用特殊字母“-”填充。

融合嵌入fusion embedding:上面三个向量拼接成三维的

最后加上position embedding






从 CommonCrawl 收集了我们的预训练数据

使用 LTP toolkit (Che et al., 2010) 来识别中文单词的边界以进行全词掩蔽。(LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作)


我们使用两种掩码策略——ChineseBERT 的全词掩码 (WWM) 和字符掩码 (CM)

基本输入单位都是汉字 可以缓解汉语中的词汇外问题

使用 WWM,一种屏蔽所选单词中所有字符的策略,减轻 CM 策略易于预测的缺点。

WWM 和 CM 之间的主要区别在于它们如何掩盖字符以及模型如何预测被掩盖的字符。


为了强制模型同时学习长期和短期依赖关系,我们建议在打包输入(0.9的概率)和单个输入(0.1的概率)之间交替进行预训练,其中打包输入是最大长度为 512 的多个句子的串联,单个输入是单句,每个单词/字符的掩蔽概率为 15%。
90% 的时间应用全字屏蔽,10% 的时间应用字符屏蔽。每个单词/字符的掩蔽概率为 15%。


