基本介绍
中文分词第三方库,用于将文本分割为单个词语
分词原理: 利用一个中文词库,确定中文字符之间的关联概率,关联概率大的组成词组形成分词结果
分词模式
jieba库分词具有三种模式
分词模式 | 特点 |
---|
精确模式 | 将文本精确分开,不存在冗余单词 | 全模式 | 得到文本中所有可能的词语,有冗余 | 搜索引擎模式 | 精确模式基础上对长词再次切分,有冗余 |
常用函数
函数 | 描述 | 返回结果类型 |
---|
jieba.lcut(s) | 精确模式 | 列表 | jieba.lcut(s,cut_all) | 全模式 | 列表 | jieba.lcut_for_search(s) | 搜索引擎模式 | 列表 | jieba.add_word(w) | 向分词字典中添加新词 | |
函数应用举例
实例1:唐诗三百文本词频分析
文本资源链接:唐诗三百(纯内容)
import jieba
content=open('唐诗三百.txt','r',encoding='gbk').read()
words=jieba.lcut(content)
counts={}
for word in words:
if word=='一作':
continue
elif len(word)==1:
continue
else:
counts[word]=counts.get(word,0)+1
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(20):
word,count=items[i]
print(word,count)
执行结果
|