[数据结构与算法] jieba库中基于 TextRank 算法的关键词抽取—

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 数据结构与算法 -> jieba库中基于 TextRank 算法的关键词抽取——源代码分析（二） -> 正文阅读

[数据结构与算法]jieba库中基于 TextRank 算法的关键词抽取——源代码分析（二）

TextRank算法思想通过词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank值即可得到关键词。具体实现过程可以概括为以下三点：

1.将待抽取关键词的文本进行分词
2.以固定窗口大小(默认为5，通过span属性调整)，词之间的共现关系，构建图
3.计算图中节点的PageRank，注意是无向带权图

上篇博客中主要分析用于第一点分词的jieba.cut方法，详细介绍了paddle模式下的分词，这篇博客继续介绍jieba.cut剩余代码。

        re_han = re_han_default
        re_skip = re_skip_default
        if cut_all: # cut_all=True, HMM=True or False
            cut_block = self.__cut_all
        elif HMM:  # cut_all=False, HMM=True
            cut_block = self.__cut_DAG
        else:   # cut_all=False, HMM=False
            cut_block = self.__cut_DAG_NO_HMM
        blocks = re_han.split(sentence)
        for blk in blocks:
            if not blk:
                continue
            if re_han.match(blk):
                for word in cut_block(blk):
                    yield word
            else:
                tmp = re_skip.split(blk)
                for x in tmp:
                    if re_skip.match(x):
                        yield x
                    elif not cut_all:
                        for xx in x:
                            yield xx
                    else:
                        yield x

re是python有关正则表达式的内容，与分词有关，改变re_han_default可以改变分词相关的条件，所以这两句的具体代码，其实如下：

		# re_han_default = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._%]+)", re.U)
        re_han = re_han_default                
        # re_skip_default = re.compile("(\r\n|\s)", re.U)
        re_skip = re_skip_default

剩余几行代码中的if语句结构代表：

如果cut_all=True, HMM=True or False，对应于全模式，即所有在词典中出现的词都会被切分出来，实现函数为__cut_all；

如果cut_all=False, HMM=False，对应于精确模式且不使用HMM；按Unigram语法模型找出联合概率最大的分词组合，实现函数为__cut_DAG，即DAG即构建的有向无环图；

如果cut_all=False, HMM=True对应于精确模式且使用HMM；在联合概率最大的分词组合的基础上，HMM识别未登录词，实现函数为__cut_DAG_NO_HMM。

blocks中是实际的分词结果。
jieba.cut返回一个可迭代的generator（有关yield，在上篇博客中解释过），可以使用 for 循环来获得分词后得到的每一个词语，储存在blocks中。