IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文阅读-FASPell: A Fast Adaptable Simple Powerful Chinese Spell Checker Based -> 正文阅读

[人工智能]论文阅读-FASPell: A Fast Adaptable Simple Powerful Chinese Spell Checker Based

来源:爱奇艺?EMNLP2019 Workshop

论文:https://aclanthology.org/D19-5522.pdf

代码:GitHub - iqiyi/FASPell: 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker (Chinese Spell Check / 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)

目录

模型结构

1. 基于bert掩码语言模型的微调

2. 基于汉字相似度的解码器

汉字相似度

?实验结果


模型结构

1. 基于bert掩码语言模型的微调

利用训练语料(错误-正确句子对),微调bert

  • 对于无错误的句子和bert一样构造数据,即选出15%的tokens预测,80%用[Mask]替换,10%用保持不变,10%用随机token替换
  • 对于有错误的句子,有错误的位置为需要预测的位置,标签是对应正确的token;为了防止过拟合,另外再选择相同数量的无错的位置进行预测。

2. 基于汉字相似度的解码器

汉字相似度

字形相似度(相比使用汉字图片,以下方法考虑到了笔画顺序,汉字结构之类)。考虑到复杂度,这里仅仅使用序列的信息,而不是使用树形结构信息(漢字データベースプロジェクト

发音相似度: 1减去标准化的拼音编辑距离

在解码阶段,原有的方法是对多个特征设置不同的权重。论文同时利用bert预测的置信度和汉字之间的相似度进行解码。

首先基于训练集绘制原字-候选字相似度和bert置信度的散点图,画出能将检测错误,纠正错误与纠正正确分开的曲线。

横坐标是bert的置信度,纵坐标是汉字的相似度

最后选择的时候根据这个曲线进行选择。

这个曲线是要手工调整的,其实就是在解码的时候,综合考虑字的相似度以及bert预测的输出概率

?可实现在召回率损失不大的基础上,提高准确率

?实验结果

?

——FT代表去掉微调

——CSD代表去掉基于汉字相似度的解码器

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-15 22:31:54  更:2022-03-15 22:35:09 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/9 15:30:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码