[人工智能] 分词算法 SmoothNLP

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 分词算法 SmoothNLP -> 正文阅读

[人工智能]分词算法 SmoothNLP

背景

使用熵信息和概率，通过熵信息提高左右邻字丰富程度，通过概率提高内部凝聚程度。

为什么考虑左右邻丰富程度

其中W_neighbor为字符组合左/右邻字的集合。举个例子，同样是在文本中出现6000+次的“副总裁”和“人工智”，字符组合的左熵都在6左右，但“副总裁”的右邻字包括 { 张,王,说, … } 等147个词，而“人工智”的右邻字只有 { 能,障 } 两种，显然“人工智”不能称作一个词。可以看算法模型中的图。所以说，并不是左右邻字越丰富，就越可以看做是一个词。

为什么考虑内部凝聚程度

比如“演唱者”出现117次，“的演唱”出现275次，从出现频数来看，“的演唱”更像是一个词。但是实际来向演唱者才是一个词。因此考虑每一个字的概率，加入互信息中，得到最终的结果。

为什么需要同时考虑左熵(LE)和右熵(RE)

因此我们在度量一个字符组合的左右邻字丰富程度时，也要注意到LE和RE的差距。比如取二者的最小值，或者将LE与RE差的绝对值(|LE-RE|)纳入考虑范围。

模型

（1）首先得到ngram，例如bi-gram， tri-gram，得到n-gram后，可以依据频率做一个划分，频率较高的词拿出来当作目标词进行考虑，相当于是bi(两个词)， tri(三个词)， n-gram(n个词)，计算概率是可以在这些词中进行计算。
(2) 计算左熵和右熵（我觉得这里可以先依据停用词做一个划分），左熵和右熵要同时考虑。计算熵时，例如目标词“资源”（2-gram），然后在（3-gram）中，找资源的左邻字和，右邻字。这里在查找过程中，使用字典树（前缀树）的算法。

计算熵：构建好字典树之后，就可以计算左熵和右熵。计算完左熵和右熵之后，通过公式进行融合计算。

在这里插入图片描述
求右熵：目标词：人工智，然后求人工智的熵，通过熵，我们计算关于人工智能，人工智障出现的和，反映信息的度量。
2表示的基。第一个表示在“”人工智"前提下不同字的熵和。

上述这一块可以反应出，为什么使用熵可以反应出这个信息。数量越多，熵值是越大的，即拥有丰富的邻字信息。

（3）计算互信息
（4）熵与互信息的融合

左右邻丰富度：
$L(W)=\log \frac{L E \cdot e^{R E}+R E \cdot e^{L E}}{|L E-R E|}$
词的凝聚度：
$I=\frac{1}{n} \log \frac{p(W)}{p\left(c_{1}\right) \cdots p\left(c_{n}\right)}$
融合后：
$\text { score }=A M I+L(W)$