TextRank算法思想通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。具体实现过程可以概括为以下三点:
1.将待抽取关键词的文本进行分词 2.以固定窗口大小(默认为5,通过span属性调整),词之间的共现关系,构建图 3.计算图中节点的PageRank,注意是无向带权图
上篇博客中主要分析用于第一点分词的jieba.cut方法,详细介绍了paddle模式下的分词,这篇博客继续介绍jieba.cut剩余代码。
re_han = re_han_default
re_skip = re_skip_default
if cut_all:
cut_block = self.__cut_all
elif HMM:
cut_block = self.__cut_DAG
else:
cut_block = self.__cut_DAG_NO_HMM
blocks = re_han.split(sentence)
for blk in blocks:
if not blk:
continue
if re_han.match(blk):
for word in cut_block(blk):
yield word
else:
tmp = re_skip.split(blk)
for x in tmp:
if re_skip.match(x):
yield x
elif not cut_all:
for xx in x:
yield xx
else:
yield x
re是python有关正则表达式的内容,与分词有关,改变re_han_default可以改变分词相关的条件,所以这两句的具体代码,其实如下:
re_han = re_han_default
re_skip = re_skip_default
剩余几行代码中的if语句结构代表:
如果cut_all=True, HMM=True or False,对应于全模式,即所有在词典中出现的词都会被切分出来,实现函数为__cut_all;
如果cut_all=False, HMM=False,对应于精确模式且不使用HMM;按Unigram语法模型找出联合概率最大的分词组合,实现函数为__cut_DAG,即DAG即构建的有向无环图;
如果cut_all=False, HMM=True对应于精确模式且使用HMM;在联合概率最大的分词组合的基础上,HMM识别未登录词,实现函数为__cut_DAG_NO_HMM。
blocks中是实际的分词结果。 jieba.cut返回一个可迭代的generator(有关yield,在上篇博客中解释过),可以使用 for 循环来获得分词后得到的每一个词语,储存在blocks中。
|