| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 【从零开始学爬虫】采集B站UP主数据 -> 正文阅读 |
|
[Python知识库]【从零开始学爬虫】采集B站UP主数据 |
l?采集网站 【场景描述】采集B站动漫分类中所有UP主数据。 【源网站介绍】 B站,全名哔哩哔哩,英文名称:bilibili,https://www.bilibili.com/v/channel/type/1,现为中国年轻世代高度聚集的文化社区和视频平台,该网站于2009年6月26日创建,被粉丝们亲切地称为“B站”???。 【使用工具】前嗅ForeSpider数据采集系统,点击下方链接可免费下载 http://www.forenose.com/view/forespider/view/download.html 【入口网址】https://www.bilibili.com/v/channel/type/1 【采集内容】 采集B站动漫分类中所有up主信息,字段包括:up主名称、id、视频名称、视频链接、观看量、点赞量等。 【采集效果】如下图所示: l?思路分析 配置思路概览: ?l?配置步骤 1.?新建采集任务 选择【采集配置】,点击任务列表右上方【+】号可新建采集任务,将采集入口地址填写在【采集地址】框中,【任务名称】自定义即可,点击下一步。 2.获取类表请求链接 ①在浏览器上观察该页面翻页,翻页类型为瀑布流翻页,推测翻页链接在请求中。 ②点击F12,继续往后翻页,观察可找到翻页请求在如下图所示的请求中。 ? ③复制翻页请求链接: ④同样方法,找到第三页和第四页请求链接,并复制出来。 ⑤观察链接,发现规律如下图所示: ⑥写翻页链接脚本,具体操作如下所示: 脚本文本:
⑦采集预览,如下图所示,表示翻页链接已生成。 3.采集up主信息 ①在浏览器中打开任意一个翻页请求的链接,可发现up主的信息就在返回的数据值中。而且每个【archive_channels】的数组中有6个值,每个值中的【archives】数组中有6个值即为每个up主的信息。 ②通过观察可发现,视频链接规律为: https://www.bilibili.com/video/+视频id+?spm_id_from= Up主主页链接为: https://space.bilibili.com/+up主id+?spm_id_from= ③新建模板02,在其下新建一个数据抽取。 ④新建一个数据表单,具体步骤和字段属性如下所示: ⑤关联数据表单,如下图所示: ⑥脚本取值,新建脚本,具体如下图所示: 脚本文本如下所示:
⑥采集预览 l?采集步骤 模板配置完成,采集预览没有问题后,可以进行数据采集。 ①首先要建立采集数据表: 选择【数据建表】,点击【表单列表】中该模板的表单,在【关联数据表】中选择【创建】,表名称自定义,这里命名为【bilibili】(注意命名不能用数字和特殊符号),点击【确定】。创建完成,勾选数据表,并点击右上角保存按钮。 ②选择【数据采集】,勾选任务名称,点击【开始采集】,则正式开始采集。 ③采集中: ④采集结束后,可以在【数据浏览】中,选择数据表查看采集数据,并可以导出数据。 ⑤导出的文件打开如下图所示: l?前嗅简介 前嗅大数据,国内领先的研发型大数据专家,多年来致力于大数据技术的研究与开发,自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台! |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/15 14:45:22- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |