| |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| -> 人工智能 -> 语音助手——QU——query纠错与改写 -> 正文阅读 |
|
|
[人工智能]语音助手——QU——query纠错与改写 |
|
????????这一章,我们来一起看一下语音助手的QU层中用到的query纠错和改写。 为什么要做纠错:????????由于语音助手中绝大多数的query来源均为语音对话,ASR模块的结果就会由于误收音、少收音、或者识别的字错误导致输入给NLU层的query是错误的。错误的query会直接影响下游服务的识别,导致最终执行结果错误,影响用户体验。比如:
????????同时由于ASR本身是有语言模型对query进行平滑的,所以进入到NLU的是已经经过平滑的结果,所以对于NLU来做纠错,由于没有用户原始的语音信息,所以实现起来难度更大。同时,考虑到线上的实时性和稳定性,这个纠错对于性能的要求也很高。 解决方案:? ? ? ? query纠错的解决方案主要包含几个步骤:混淆挖掘、数据清洗、错误检测、候选召回、候选排序、后处理。 根据效果和实时性的要求不同,又可以分为在线端与离线端两部分。?
下面对各个模块进行一个简单的说明。? 1、混淆挖掘与数据清洗? ? ? ? 这一步的目的主要为了建立混淆词、混淆句数据库,为后续的错误检测和候选召回提供数据库支撑。 ? ? ? ? 为了能够尽量挖掘到可能存在的混淆词句,这里可以利用新词发现来做,挖掘内部凝聚度足够高同时左右邻字足够丰富的词,新词发现的方法这里就不展开讲了。除此之外,也可以进行混淆词句挖掘,利用近音相似、语义相似、拼音字符串的方法挖掘到混淆词。将挖掘到的新词+混淆词,通过各种方法进行清洗后,形成混淆词词典、拼音trie树等,作为基础数据库。 2、错误检测? ? ? ? 这一步主要为了对输入的query进行错误检测,识别其是否可能存在错误,以及存在错误的位置。比较常用的方法就是:
3、候选召回? ? ? ? 这一步主要是为了为错误词找到其原本对的词,比如“和平静音”中的“静音”,其正确词应该为“精英”。这一步主要利用各种方法找到错误词可能对应的正确词,以及这些正确词的概率,然后进行一个综合的排序。一些可用的特征和选择为:
4、候选排序? ? ? ? 这一步即将上面找到的潜在正确词,进行一个综合的排序。其可以利用的特征为:编辑距离、近音相似度、语言模型概率,黑白名单,PPL分数。 ? ? ? ? 这里说一下PPL分数,perplexity(困惑度)是用来度量一个概率分布或概率模型预测样本的好坏程度,简单来说,就是衡量一句话到底是不是自然语言,分数越低越好。
????????将2.3中找到的候选词,利用2.4中找到每个候选词的各个维度的分数,然后利用梯度提升树GBDT做一个综合的排序,当然,也可以利用xgboost,其效果会更好一些,关于GBDT和xgboost的区别,后续会有文章将两者进行对比。 扩展思路:? ? ? ? 上面的各个模块中,都有提到bert,其实可以直接利用bert,做一个端到端的翻译模型,将纠错的任务当做翻译的任务来做,输入为错误的query,输出为纠正后的query,不过这种方法效果不太可控,用于线上实时纠错风险较大,因为一旦这一步纠错出现错误,导致query更加难以理解,会对下游的任务带来蝴蝶效应式的错误。当然,如果其应用场景为类似搜索引擎上的,给出一个候选结果让用户去选,而不是直接拿去执行,这个也是个不错的选择。 |
|
|
|
|
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| 360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年11日历 | -2025/11/26 23:24:58- |
|
| 网站联系: qq:121756557 email:121756557@qq.com IT数码 |