词云
基本流程
????1. 导入库
from wordcloud import wordcloud
import jieba # 中文分词
import re # 可以使用re.sub()方法来处理字符串(如果想用的话)
from PIL import Image # 用于指定生成词云形状
import numpy as np
????2. 输入/读取文本,并进行处理
"""
text = '离离原上草,一岁一枯荣。'\
'野火烧不尽,春风吹又生。'\
'远芳侵古道,晴翠接荒城。'\
'又送王孙去,萋萋满别情。 '
"""
# 读取文本(r:只读; rb:二进制(图片、视频……)打开只读)
with open(' .txt', 'r', encoding='utf-8')as f:
text = f.read()
# 若想删除所有换行符,不能直接加入text.strip(),因为read是读取所有内容,大部分换行符位于文本内部,而text.strip()只能去除字符串前后(左右侧)的空格或特殊字符
# 去除无意义的词,也可以在创建词云对象的时候添加stopwords属性
text = re.sub(r'[我你他她它们自己的]', '', text)
text_list = jieba.lcute(text) # 返回对象为列表
text_str = ' '.join(text_list) # 将列表各个元素拼接起来,并以空格隔开,返回对象为字符串
????3. 指定词云形状
mask = np.array(Image.open('zg.jpg')) # 然后在词云对象属性那里,设置mask=mask
????4. 实例化词云对象(设置属性),并传入文本创建词云
wc = wordcloud(font_path=' ',background_color='white', )
wc.generate(text_str)
# 常用设置:
# 设置背景颜色三种方法:
# 1、background_color='white'(颜色名称);
# 2、background_color='#FFF0F5'(16进制颜色码);
# 3、background_color=(255, 240, 245)(RGB)
# 设置词云图片形状:mask=mask
# 设置词云图片宽度:width(default=400)
# 设置词云图片高度:height(default=200)
# 设置最小字体大小:min_font_size(default=4)
# 设置文字与词云图片边框留白宽度:margin(default=2)
????5. 保存词云图片
wc.to_file('词云.png') # 也可以在文件名前面指定保存路径
补充1:随机生成多个词汇
import random
res_list = random.choices(['美丽', '优雅', '善良', '聪明'], k=16) # k为随机生成的个数,返回结果为列表list
print(res_list)
# 结果 >>>['优雅', '美丽', '善良', '聪明', '优雅', '善良', '美丽', '善良', '优雅', ……]
补充2:绝对路径打开文件
# 使用绝对路径打开文件时,遇到下面的错误,可以尝试在绝对路径前加'r',eg,r'C:\Users\huawei\Desktop\zg.png'
SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
补充3:read、readline与readlines
# read 读取全部内容 返回字符串
# readline 读取1行内容 返回字符串
# readlines 读取每1行内容 返回列表,列表的每个元素为读取到的每一行的内容
# 可以使用line.strip()删除末尾的'\n'
|