| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 移动开发 -> 用Scrapy爬取分析了7万款Iphone12,结果万万没想到! -> 正文阅读 |
|
[移动开发]用Scrapy爬取分析了7万款Iphone12,结果万万没想到! |
需求分析 Iphone13出来了,但是Iphone12依然香啊! 好不好,我们去网易严选看看便知~~ 所以我们今天的目标就是使用scrapy抓取网易严选Iphone12评论数据,看看到底值不值得入手! scrapy项目创建如下: 网页分析 找到网页真实请求连接,可以看到数据实际上存储在json格式数据集里面 所以我们第一步必须先获取到这一整个json数据集。 为了防止被网站防爬,我们还需在setting.py加上ua,如下: 我们使用浏览器打开请求连接可以更加直观的观察数据格式。 发送请求 我们要此次要抓取的数据一共有7个,分别如下所示: 我们先在items中定义好我们要获取的数据
刚才我们已经成功分析出来要获取的数据集合是一个json格式的, scrapy已经帮我们请求好了,我们直接打印
浏览器成功响应给我们信息,这样看起来结构一目了然。 接下来我们要做的就是获取json格式中的commentList信息,因为我们需要的信息都在这个里面
数据成功获取到,最后我们把它扔给Pipeline,让他自己去下载好了 你可以选择自己想要保存的格式。 数据保存 我一般为了后续的数据分析和可视化专门写了一个可以直接保存在excel的函数,如下:
直接运行数据就会保存在我们本地啦!(部分数据如下) 数据清洗 我们在此使用pandas对数据进行读取然后去重复和去除空值处理。 随机抽取五条数据展示如下:
词云可视化 词云图展示如下:看来Iphone12依旧还是很香的,虽然13出来了 但是依旧值得入手! 词频可视化 我们提取网易手机评论前十大高频词汇如下:
使用pyecharts绘制可视化大屏图展示如下: 评分可视化 我们使用pandas提取手机评分数据以及频率,数据可视化展示如下: 从图中可以非常直观的看出苹果12的受欢迎程度。
购机时间可视化 我们爬取的数据都是在2021年,接下来我们提取事件中的月份数据, 来看看大家普遍的下单时间集中在哪几个月份?
从图中可以很直观的看到大家的下单日期大多集中在六月份 年终奖6月发吗 内存大小可视化 接下来我们对手机内存进行可视化分析,看看大家喜欢的内存是多大?
64太小,256浪费 128G才是真爱啊! 手机颜色可视化 关于Iphone的颜色,哪一种最受欢迎呢?
通过下图看出,大众选择都是喜欢白色的 相反紫色是最不容易撞衫的 |
|
移动开发 最新文章 |
Vue3装载axios和element-ui |
android adb cmd |
【xcode】Xcode常用快捷键与技巧 |
Android开发中的线程池使用 |
Java 和 Android 的 Base64 |
Android 测试文字编码格式 |
微信小程序支付 |
安卓权限记录 |
知乎之自动养号 |
【Android Jetpack】DataStore |
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/23 21:54:19- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |