| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 腾讯招聘爬虫(Scrapy框架) -> 正文阅读 |
|
[Python知识库]腾讯招聘爬虫(Scrapy框架) |
新手学习爬虫,作为练习项目,使用Scrapy框架实现腾讯招聘爬虫并保存到MongoDB数据库 查看网页源代码后发现其中没有数据,因此转向后端抓包查找数据源。 找到接口后进行解析,不难发现timestamp后的一串数字就是当前的时间戳,因此爬虫运行时若要爬取实时的招聘信息,就要动态获取当前的时间戳。 之后开始创建项目 创建项目命令:scrapy startproject tencent 创建爬虫:scrapy genspider hr tencent.com item:
爬虫体:
这里先获取数据,之后创建一个空字典item,对每个字段进行拆分,生成键值对进行保存,之后查找下一页的url地址,在翻页后观察url中改变的参数信息,除了时间戳之外还发现其中的pageIndex由1变成了2,由此可以判断根据这个参数进行翻页,之后使用一个for循环生成url地址(这里爬取940页的招聘信息) 最后生成请求,将生成的url地址交给回调函数parse进行爬取,直到结束 ?数据清洗和数据库保存:
最后对爬取的信息进行清洗并保存到数据库 settings信息:
运行结果: ? 作为爬虫初学者第一次尝试练习,还有很多不足,欢迎指点。 ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/15 19:39:18- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |