IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 《双城之战》口碑爆炸,却有评论说它不如国漫?Python采集好评、中评、差评数据,看它真有那么差吗 -> 正文阅读

[Python知识库]《双城之战》口碑爆炸,却有评论说它不如国漫?Python采集好评、中评、差评数据,看它真有那么差吗

前言

上次爬了《双城之战》的视频弹幕,效果很不理想,这次的目标是豆瓣的评论数据

分别把好评、一般和差评都一起爬下来

主页左侧可以免费领取【代码】【相关教程、资料】,或者对于本篇文章有疑问的同学可以私信我

知识点

  • 爬虫基本流程
  • requests
  • 制作词云
  • jieba
  • imageio
  • wordcloud

环境

  • Python 3.8
  • pycharm 2021.2

代码实现部分

  • 发送请求
  • 解析数据
  • 保存数据
  • 制作词云图

评论爬虫代码

导入模块

import requests
import parsel

请求数据

先打开开发者工具找到数据

url = f'https://movie.douban.com/subject/34867871/comments?start=20&limit=20&status=P&sort=new_score'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}
response = requests.get(url=url, headers=headers)

解析数据

select = parsel.Selector(response.text)
content_list = select.css('.short::text').getall()

翻页

找到不同页数的规律,用for page进行翻页

for page in range(0, 220, 20):
    url = f'https://movie.douban.com/subject/34867871/comments?start={page}&limit=20&status=P&sort=new_score'

保存数据

for index in content_list:
    with open('双城之战.txt', mode='a', encoding='utf-8') as f:
        f.write(index)
        f.write('\n')
    print(index)

实现效果

词云代码

导入模块

import jieba
import wordcloud
import imageio

导入imageio库中的imread函数,并用这个函数读取本地图片,作为词云形状图片

py = imageio.imread(r"C:\Users\Administrator\Desktop\123.png")

读取文件内容

f = open(r'C:\Users\Administrator\Desktop\双城之战.txt', encoding='utf-8')
txt = f.read()

jiabe 分词 分割词汇

txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)

词云图设置

wc = wordcloud.WordCloud(
        width=1000,         # 图片的宽
        height=700,         # 图片的高
        background_color='white',   # 图片背景颜色
        font_path='STKAITI.TTF',    # 词云字体
        mask=py,     # 所使用的词云图片
        scale=5,
)

给词云输入文字

wc.generate(string)

词云图保存图片地址

wc.to_file(r'C:\Users\Administrator\Desktop\out.png')

全部评论词云图

好评词云图

一般词云图

差评词云图

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章           查看所有文章
加:2021-11-29 16:16:37  更:2021-11-29 16:19:10 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/16 2:23:22-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码