| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 论文解读:FASPell: A Fast Adaptable Simple Powerful Chinese Spell Checker Based On DAE-Decoder Paradig -> 正文阅读 |
|
[人工智能]论文解读:FASPell: A Fast Adaptable Simple Powerful Chinese Spell Checker Based On DAE-Decoder Paradig |
论文解读:FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based On DAE-Decoder Paradigm简要信息:
动机:
方法:??本文提出一种FASPell模型,包含Denoising Autoencoder(DAE)和Decoder模块,遵循Encoder-Decoder架构。其中Masked Language Model(MLM)作为DAE模块来生成candidate,Confidence-similarity Decoder则用来过滤candidate。 Masked Language Model??MLM是BERT中的一个任务,给定一个文本,80%的token被替换且[MASK],10%的token被替换为其他token,剩余10%保持不变。MLM的任务则是预测[MASK]对应的token。可以换一个角度来理解MLM,如果将[MASK]token当作错误的拼写,则MLM恰巧就是取纠正这个错误。而还有一部分的token是保持不变的,即还需要模型能够检测token是否是错误的拼写。因此MLM兼具拼写检测和纠正两个作用。 ??考虑到随机mask的token与真实场景下的错误拼接是有差距的,因此本文提出在拼写检测数据集上的微调方法:
Character Similarity??作者认为MLM起到的作用并非强大,因此有必要添加一个decoder。 visual similarity??在视觉相似性中,通常选择表意描述序列(Ideographic Description Sequence (IDS))来表示字符的字形,本质上是有序树的前序遍历路径。
??在定义视觉相似性,本文只使用IDS,两个字符之间的相似性则使用1减去正则化的IDS序列Levenshtein编辑距离来表示。
Phonological Similarity??本文利用字符的发音相似性。两个字符之间的发音相似性则使用1减去正则化的音标序列Levenshtein编辑距离来表示。
Confidence-Similarity Decoder(CSD)??传统的candidate filter方法是为多个候选字符的特征设置不同的阈值和权重。而本文则使用confidence-similarity decoder(结合上下文置信度和字符相似性) 如上图,对于所有候选的candidate,可以获得相应的confidence score和character similarity。2-4则是三种过滤曲线。
??请注意,使用提出的置信相似度解码器,替换的最终选择不一定是排名第一的候选者。
实验数据集: 实验设置: 使用BERT的预训练MLM,超参数则与BERT一致; 评价指标: 实验结果: 优点: 使用MLM预测候选,生成的方式替代了pt表,整个流程非常简单,需要的标注数据也很少,排序时使用字音字形特征,尤其是字音使用多种汉字发音,可解释性也比较好。 缺点: 只能解决错字场景,多字/少字/乱序场景不支持(这种一般都是实体类型,可单独解决) |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 15:53:43- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |