IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python第三方库--jieba库 -> 正文阅读

[Python知识库]python第三方库--jieba库

基本介绍

中文分词第三方库,用于将文本分割为单个词语

分词原理:
利用一个中文词库,确定中文字符之间的关联概率,关联概率大的组成词组形成分词结果

分词模式

jieba库分词具有三种模式

分词模式特点
精确模式将文本精确分开,不存在冗余单词
全模式得到文本中所有可能的词语,有冗余
搜索引擎模式精确模式基础上对长词再次切分,有冗余

常用函数

函数描述返回结果类型
jieba.lcut(s)精确模式列表
jieba.lcut(s,cut_all)全模式列表
jieba.lcut_for_search(s)搜索引擎模式列表
jieba.add_word(w)向分词字典中添加新词

函数应用举例
在这里插入图片描述

实例1:唐诗三百文本词频分析

文本资源链接:唐诗三百(纯内容)

# coding:utf-8
import jieba
content=open('唐诗三百.txt','r',encoding='gbk').read()
words=jieba.lcut(content)
counts={}		# 建立一个字典,键为分词名称,值为其对应的词频
for word in words:
    if word=='一作':	# “一作”为唐诗的注释,并非唐诗内容
        continue
    elif len(word)==1:		# 去除标点和空格等干扰
        continue
    else:
        counts[word]=counts.get(word,0)+1		# 等号左边用于设置字典键对应的值,右边get()函数表示有键对应的值则取其值,没有则取0
items=list(counts.items())		# 将字典中的键和值取出并转化为列表,便于排序
items.sort(key=lambda x:x[1],reverse=True)		# 升序排序,key表示取出每个元素中的第二项(即键对应的值)作为比较依据
for i in range(20):	# 输出升序的前二十项
    word,count=items[i]
    print(word,count)

执行结果
在这里插入图片描述

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-10-03 17:02:17  更:2021-10-03 17:03:23 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 17:38:25-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码