开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> 《双城之战》口碑爆炸，却有评论说它不如国漫？Python采集好评、中评、差评数据，看它真有那么差吗 -> 正文阅读

[Python知识库]《双城之战》口碑爆炸，却有评论说它不如国漫？Python采集好评、中评、差评数据，看它真有那么差吗

前言

上次爬了《双城之战》的视频弹幕，效果很不理想，这次的目标是豆瓣的评论数据

分别把好评、一般和差评都一起爬下来

主页左侧可以免费领取【代码】【相关教程、资料】，或者对于本篇文章有疑问的同学可以私信我

知识点

爬虫基本流程
requests
制作词云
jieba
imageio
wordcloud

环境

Python 3.8
pycharm 2021.2

代码实现部分

发送请求
解析数据
保存数据
制作词云图

评论爬虫代码

导入模块

import requests
import parsel

请求数据

先打开开发者工具找到数据

url = f'https://movie.douban.com/subject/34867871/comments?start=20&limit=20&status=P&sort=new_score'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}
response = requests.get(url=url, headers=headers)

解析数据

select = parsel.Selector(response.text)
content_list = select.css('.short::text').getall()

翻页

找到不同页数的规律，用for page进行翻页

for page in range(0, 220, 20):
    url = f'https://movie.douban.com/subject/34867871/comments?start={page}&limit=20&status=P&sort=new_score'

保存数据

for index in content_list:
    with open('双城之战.txt', mode='a', encoding='utf-8') as f:
        f.write(index)
        f.write('\n')
    print(index)

实现效果

词云代码

导入模块

import jieba
import wordcloud
import imageio

导入imageio库中的imread函数，并用这个函数读取本地图片，作为词云形状图片

py = imageio.imread(r"C:\Users\Administrator\Desktop\123.png")

读取文件内容

f = open(r'C:\Users\Administrator\Desktop\双城之战.txt', encoding='utf-8')
txt = f.read()

jiabe 分词分割词汇

txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)

词云图设置

wc = wordcloud.WordCloud(
        width=1000,         # 图片的宽
        height=700,         # 图片的高
        background_color='white',   # 图片背景颜色
        font_path='STKAITI.TTF',    # 词云字体
        mask=py,     # 所使用的词云图片
        scale=5,
)

给词云输入文字

wc.generate(string)

词云图保存图片地址

wc.to_file(r'C:\Users\Administrator\Desktop\out.png')

全部评论词云图

好评词云图

一般词云图

差评词云图

Python知识库最新文章

Python中String模块

【Python】 14-CVS文件操作

python的panda库读写文件

使用Nordic的nrf52840实现蓝牙DFU过程

【Python学习记录】numpy数组用法整理

Python学习笔记

python字符串和列表

python如何从txt文件中解析出有效的数据

Python编程从入门到实践自学/3.1-3.2

python变量

上一篇文章查看所有文章

加:2021-11-29 16:16:37 更:2021-11-29 16:19:10

360图书馆购物三丰科技阅读网日历万年历 2025年10日历

-2025/10/17 16:46:24-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码

[Python知识库]《双城之战》口碑爆炸，却有评论说它不如国漫？Python采集好评、中评、差评数据，看它真有那么差吗

前言

主页左侧可以免费领取【代码】【相关教程、资料】，或者对于本篇文章有疑问的同学可以私信我

知识点

环境

代码实现部分

评论爬虫代码

导入模块

请求数据

解析数据

翻页

保存数据

实现效果

词云代码

导入模块

导入imageio库中的imread函数，并用这个函数读取本地图片，作为词云形状图片

读取文件内容

jiabe 分词 分割词汇

词云图设置

给词云输入文字

词云图保存图片地址

全部评论词云图

好评词云图

一般词云图

差评词云图

jiabe 分词分割词汇