IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 移动开发 -> 用Scrapy爬取分析了7万款Iphone12,结果万万没想到! -> 正文阅读

[移动开发]用Scrapy爬取分析了7万款Iphone12,结果万万没想到!

需求分析

Iphone13出来了,但是Iphone12依然香啊!

好不好,我们去网易严选看看便知~~

图片

所以我们今天的目标就是使用scrapy抓取网易严选Iphone12评论数据,看看到底值不值得入手!

scrapy项目创建如下:

图片

网页分析

找到网页真实请求连接,可以看到数据实际上存储在json格式数据集里面

所以我们第一步必须先获取到这一整个json数据集。

图片

为了防止被网站防爬,我们还需在setting.py加上ua,如下:

图片

我们使用浏览器打开请求连接可以更加直观的观察数据格式。

图片

发送请求

我们要此次要抓取的数据一共有7个,分别如下所示:

图片

我们先在items中定义好我们要获取的数据

????#?名称
????name?=?scrapy.Field()

????#?等级
????level?=?scrapy.Field()

????#?评分
????star?=?scrapy.Field()

????#?时间
????rls_time?=?scrapy.Field()

????#?颜色
????color?=?scrapy.Field()

????#?内存
????storage?=?scrapy.Field()

????#?评论
????content?=?scrapy.Field()

刚才我们已经成功分析出来要获取的数据集合是一个json格式的,

scrapy已经帮我们请求好了,我们直接打印

ic(response.json())

浏览器成功响应给我们信息,这样看起来结构一目了然。

图片

接下来我们要做的就是获取json格式中的commentList信息,因为我们需要的信息都在这个里面

phone_list?=?phone_info['data']['commentList']

#?打印所需信息
for?phone?in?phone_list:

????#?名称
????item['name']?=?phone['frontUserName']

????#?等级
????item['level']?=?phone['memberLevel']

????#?评分
????item['star']?=?phone['star']

????#?时间
????rls_time?=?phone['createTime']
????item['rls_time']?=?time.strftime('%Y-%m-%d?%H:%M:%S',?time.localtime(rls_time/1000)).split('?')[0]

????#?颜色
????item['color']?=?phone['skuInfo'][0].split(':')[1]

????#?内存
????item['storage']?=?phone['skuInfo'][1].split(':')[1]
????
????#?评论
????item['content']?=?phone['content']
????
????yield?item

数据成功获取到,最后我们把它扔给Pipeline,让他自己去下载好了

你可以选择自己想要保存的格式。

图片

数据保存

我一般为了后续的数据分析和可视化专门写了一个可以直接保存在excel的函数,如下:

class?ExcelPipeline:

??op.Workbook()
??self.wb.active
??ws.append(['用户名称',?'会员等级',?'手机评分',?'评论时间',?'手机颜色',?'手机内存',?'评论'])

??self.wb.save('../网易.xlsx')
??print('网易数据成功保存!')

直接运行数据就会保存在我们本地啦!(部分数据如下)

图片

数据清洗

我们在此使用pandas对数据进行读取然后去重复和去除空值处理。

随机抽取五条数据展示如下:

pd.set_option('display.max_columns',?None)???#?显示完整的列
pd.set_option('display.max_rows',?None)??#?显示完整的行
pd.set_option('display.expand_frame_repr',?False)??#?设置不折叠数据

#?读取数据
rcv_data?=?pd.read_excel('../网易.xlsx')

#?删除重复记录和缺失值
rcv_data?=?rcv_data.drop_duplicates()
rcv_data?=?rcv_data.dropna()

#?抽样展示
print(rcv_data.sample(5))

'''
??用户名称??会员等级??手机评分????????评论时间???手机颜色??手机内存??????????????????????评论
??7????赵****豪?????5?????5??2021-03-05?????黑色??128G????????????????没买2天又便宜了
??42???用****4?????5?????5??2021-06-23??返红包黑色??128G????????????手机非常好用,老婆很喜欢
??268??独****息?????6?????5??2021-06-04??返红包绿色??256G?????????????发货很快,第二天就到了
??144??1****5?????5?????5??2021-02-27?????黑色??128G?????????????????没啥可说的?好
??97???用****4?????5?????5??2021-06-05??返红包白色??128G??发货快,物流也给力,包装保护的好,正品没问题
'''

词云可视化

词云图展示如下:看来Iphone12依旧还是很香的,虽然13出来了

但是依旧值得入手!

图片

图片

图片

词频可视化

我们提取网易手机评论前十大高频词汇如下:

#?词频设置
all_words?=?[word?for?word?in?result.split('?')?if?len(word)?>?1?and?word?not?in?stop_words]
wordcount?=?Counter(all_words).most_common(10)

'''
('非常',?'不错',?'手机',?'好好',?'很快',?'发货',?'喜欢',?'正品',?'物流',?'速度')
(65,?48,?45,?36,?32,?32,?31,?30,?29,?29)
'''

使用pyecharts绘制可视化大屏图展示如下:

图片

评分可视化

我们使用pandas提取手机评分数据以及频率,数据可视化展示如下:

从图中可以非常直观的看出苹果12的受欢迎程度。

#?划分价格区间
rcv_data['手机评分']?=?pd.cut(rcv_data['手机评分'],?[0,?1,?2,?5],?labels=['差评',?'中评',?'好评'])

#?统计数量
stars?=?rcv_data['手机评分'].value_counts()
stars1?=?stars.index.tolist()??#?人气值分类
stars2?=?stars.tolist()???#?人气值分类对应数量

'''
['好评',?'差评',?'中评']
[308,?9,?2]
'''

图片

购机时间可视化

我们爬取的数据都是在2021年,接下来我们提取事件中的月份数据,

来看看大家普遍的下单时间集中在哪几个月份?

#?提取时间月份
rcv_data['评论时间']?=?rcv_data['评论时间'].map(lambda?x:?x.split('-')[1])
rcv_data['评论时间']?=?pd.cut(rcv_data['评论时间'],?['00',?'01',?'02',?'03',?'04',?'05',?'06',?'07',?'08',?'09'],?labels=['一月',?'二月',?'三月',?'四月',?'五月',?'六月',?'七月',?'八月',?'九月'])

#?统计数量
dates?=?rcv_data['评论时间'].value_counts()
dates1?=?dates.index.tolist()??#?月份分类
dates2?=?dates.tolist()??#?月份分类对应数量

'''
['六月',?'三月',?'四月',?'九月',?'二月',?'七月',?'一月',?'五月',?'八月']
[95,?66,?34,?33,?22,?20,?18,?16,?15]
'''

从图中可以很直观的看到大家的下单日期大多集中在六月份

年终奖6月发吗

图片

内存大小可视化

接下来我们对手机内存进行可视化分析,看看大家喜欢的内存是多大?

storage?=?rcv_data['手机内存'].value_counts()
storage1?=?storage.index.tolist()??#?内存种类
storage2?=?storage.tolist()??#?内存种类对应数量

'''
['128G',?'256G',?'64G']
[221,?81,?18]
'''

64太小,256浪费

128G才是真爱啊!

图片

手机颜色可视化

关于Iphone的颜色,哪一种最受欢迎呢?

#?颜色分布
rcv_datas?=?rcv_data[rcv_data['手机颜色'].str.len()==2]
colors?=?rcv_datas['手机颜色'].value_counts()
colors1?=?colors.index.tolist()??#?内存种类
colors2?=?colors.tolist()??#?内存种类对应数量

'''
['白色',?'黑色',?'红色',?'绿色',?'蓝色',?'紫色']
[73,?56,?31,?30,?23,?15]
'''

通过下图看出,大众选择都是喜欢白色的

相反紫色是最不容易撞衫的

图片

  移动开发 最新文章
Vue3装载axios和element-ui
android adb cmd
【xcode】Xcode常用快捷键与技巧
Android开发中的线程池使用
Java 和 Android 的 Base64
Android 测试文字编码格式
微信小程序支付
安卓权限记录
知乎之自动养号
【Android Jetpack】DataStore
上一篇文章      下一篇文章      查看所有文章
加:2021-10-17 12:06:28  更:2021-10-17 12:08:44 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/23 21:54:19-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码