开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 中文文本纠错模型 -> 正文阅读

[人工智能]中文文本纠错模型

中文文本纠错任务是一项NLP基础任务，其输入是一个可能含有语法错误的中文句子，输出是一个正确的中文句子。语法错误类型很多，有多字、少字、错别字等，目前最常见的错误类型是错别字。

1. SoftMaskedBert4CSC

论文【ACL 2020】《Spelling Error Correction with Soft-Masked BERT》https://arxiv.org/abs/2005.07421
Detection
首先，模型的输入是n个中文字符X=(x1，x2，… ，xn)经过embeddings得到的E = (e1，e2，…，en),该embeding是word embeding+position embeding+segment embeding，经过Bi-GRU得到各个字符错误的概率G = (g1，g2，…，gn)，其中g在0-1之间，越靠近1表示该字符错误的概率越大，其损失函数为：
soft-masked
作者认为只hard-mask了15%字符的Bert不完全具备纠错的能力（至于为啥不具备，作者也没讲清楚，我觉得这里有些牵强），所以作者提出了soft-mask，大致的思路就是利用Detection输出的得分来引导Bert输入的mask，使得得分高(错误概率高)的地方更大概率被mask，公式如下：
Correction
Correction的输入是经过soft-masked的embeding，输出的是生成的字符，损失函数是：

Loss
模型没有分阶段训练，而是直接end-to-end，使用Bert的per-trained模型，损失函数由Detection和Correction线性组合，如下：

2. MacBert4CSC

MacBert 可以参阅：https://blog.csdn.net/u011239443/article/details/121820752?spm=1001.2014.3001.5502

MacBert4CSC：https://github.com/shibing624/pycorrector/blob/master/pycorrector/macbert/README.md

本项目是 MacBERT 改变网络结构的中文文本纠错模型，可支持 BERT 类模型为 backbone。

在通常 BERT 模型上进行了魔改，追加了一个全连接层作为错误检测即 detection，与 SoftMaskedBERT 模型不同点在于，本项目中的 MacBERT 中，只是利用 detection 层和 correction 层的 loss 加权得到最终的 loss。不像 SoftmaskedBERT 中需要利用 detection 层的置信概率来作为 correction 的输入权重。