基本介绍

中文分词第三方库，用于将文本分割为单个词语

分词原理：
利用一个中文词库，确定中文字符之间的关联概率，关联概率大的组成词组形成分词结果

分词模式

jieba库分词具有三种模式

分词模式	特点
精确模式	将文本精确分开，不存在冗余单词
全模式	得到文本中所有可能的词语，有冗余
搜索引擎模式	精确模式基础上对长词再次切分，有冗余

常用函数

函数	描述	返回结果类型
jieba.lcut(s)	精确模式	列表
jieba.lcut(s,cut_all)	全模式	列表
jieba.lcut_for_search(s)	搜索引擎模式	列表
jieba.add_word(w)	向分词字典中添加新词

函数应用举例
在这里插入图片描述

实例1：唐诗三百文本词频分析

文本资源链接：唐诗三百（纯内容）

# coding:utf-8
import jieba
content=open('唐诗三百.txt','r',encoding='gbk').read()
words=jieba.lcut(content)
counts={}		# 建立一个字典，键为分词名称，值为其对应的词频
for word in words:
    if word=='一作':	# “一作”为唐诗的注释，并非唐诗内容
        continue
    elif len(word)==1:		# 去除标点和空格等干扰
        continue
    else:
        counts[word]=counts.get(word,0)+1		# 等号左边用于设置字典键对应的值，右边get()函数表示有键对应的值则取其值，没有则取0
items=list(counts.items())		# 将字典中的键和值取出并转化为列表，便于排序
items.sort(key=lambda x:x[1],reverse=True)		# 升序排序，key表示取出每个元素中的第二项（即键对应的值）作为比较依据
for i in range(20):	# 输出升序的前二十项
    word,count=items[i]
    print(word,count)