| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 吃鸡数据爬取与分析 -> 正文阅读 |
|
[Python知识库]吃鸡数据爬取与分析 |
目录Tip: 依旧是菜鸡们的期末项目作业,这次是要求组队在5天内完成一个爬虫+数据展示汇报。于是乎5个人赶鸭子上架现学现写,赶在最后一天完成了任务,不过ppt就不放出来了。本着拯救学弟学妹于水火之中的想法再次写成博文发出来。不过这次我主要是项目管理和部分爬虫编写,后面的部分可能没法解释地非常详细还请见谅。 关键词:Selenium、jupyter数据分析展示、html5、mysql数据库 github和gitee链接放在文尾,有需要的自取(记得点个星呀!) 1.项目概述这个项目最初也是在github的爬虫项目集合中看到的,但是翻遍网上的各种教程,全是用的一份18年的公开数据集直接进行分析,跳过了数据爬取的数据,于是一番讨论之下我们决定自己爬数据自己分析。 2.用户名爬取首先在pubg.op.gg.网站爬取用户名,网站上能够通过用户名获取到其近3年的比赛记录,其中有每局队友的用户名。 (不要在意入队和出队搞错了!懒得换图了233) 那么当时爬虫是我和其中一个同学负责,一学期没听课,赶忙百度爬虫,知道了Selenium与Scrapy,于是乎先是尝试抓包。 页面一次只显示20条信息,需要通过点击more显示新的20条比赛信息,同时需要翻至页面底部以防按钮被广告挡住,点击靠css定位,用户名获取使用xpath定位。
最后将数据整理成一条sql语句进行插入,经实际操作证明,一条一条插入极其缓慢
3.比赛数据获取pubg官方提供了开发者接口,可以在https://developer.pubg.com/上注册账号申请一个api进行数据获取。在默认情况下api只允许最快10个每分钟的访问请求,可以通过提交申请提高访问频率。 在这一个阶段需要先整理出后续分析需要的数据以便数据的整理与保存,我们根据网上其它一些教程和时间等情况,整理出下列研究问题以及所需要的数据。 PUBG对于每场比赛的数据是以事件日志的方式统一保存的,对局中每一种类型的事件会保存在一个日志里,经过查找,一场比赛的日志包含以下类型数据: 这种数据的保存方式像是一种树形结构,如果想要获取所需数据,及叶子,则需要通过到达叶子的分支才能获取,也就是说,想要获取一个数据,需要不断查找日志中的标签和属性,直到查到最后一个结点,即数据结点。 如:获取玩家本场比赛,地图名,玩家名,击杀数,助攻数,队伍排名,骑行距离,步行距离,造成伤害等信息
以上代码中,先获取本局游戏所有玩家的花名册,花名册的元素为玩家的实例,并通过其属性获取所需信息。 其余信息的整合过程不做展示,可以自行查看。 最后生成形如这样的数据表 4. 数据分析和整理展示1,获取表格首先得到一个由爬虫技术而创建的csv表格。 利用jupyter的可实时编辑效果对数据进行分析再发展。 导入表格
2,数据分析在导入表格后,对数据进行处理,并且导出处理后的数据
3,利用matplotlib,seaborn等函数对将处理后的数据进行可视化。
4,将导出的数据结果带入带Echarts中,放入HTML中
5, 网页展示本来我自己有一个阿里云的轻型服务器,结果实在受不了备案这种bug,最后买的国外的vps,没想到是centos的。最后是用宝塔系统一键部署的(本来还想搞个mysql双机热备,被centos装mysql烦死了,折腾大半天没搞得成) 5. 总结那么大概就是这样吧,5个人5天搞完真挺不容易的,因为都是边学边写,还要做好代码库管理和开发日志展示ppt那些。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/25 14:59:13- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |