| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> python Scrapy项目 之 古诗文网案例呈现 -> 正文阅读 |
|
[Python知识库]python Scrapy项目 之 古诗文网案例呈现 |
python Scrapy项目 之 古诗文网案例呈现 ?????????????????????????????????????????????????????????????????????????????????????????????????????????????????? 需求通过python,Scrapy框架,爬取古诗文网上的诗词数据,具体包括诗词的标题信息,作者,朝代,诗词内容,及译文。爬取过程需要逐页爬取,共4页。第一页的url为(https://www.gushiwen.cn/default_1.aspx)。 1. Scrapy项目创建首先创建Scrapy项目及爬虫程序 在目标目录下,创建一个名为prose的项目:
进入项目目录下,然后创建一个名为gs的爬虫程序,爬取范围为 gushiwen.cn
2. 全局配置 settings.py对配置文件settings.py做如下编辑: ①选择不遵守robots协议 具体如下:
3. 爬虫程序.py首先是进行页面分析,这里不再赘述该过程。 这部分代码,也即需要编辑的核心部分。 需求:我们要爬取的内容包括:诗词的标题信息,作者,朝代,诗词内容,及译文。爬取过程需要逐页爬取。 其中,标题信息,作者,朝代,诗词内容,及译文都存在于同一个<div>标签中。 关于翻页,我们的思路是:遍历获取完每一页需要的数据后(即一大轮循环结束后),从当前页面上获取下一页的链接,然后判断获取到的链接是否为空。如若不为空则表示获取到了,则再一次使用scrapy.Requests()方法,传入该链接,并再次调用parse函数。如果为空,则表明这已经是最后一页了,程序就会在此处结束。 具体代码如下:
4. 数据结构 items.py在这里定义了ProseItem类,以便在上边的爬虫程序中调用。(此外要注意的是,爬虫程序中导入了该模块,有必要时需要将合适的文件夹标记为根目录。)
5. 管道 pipelines.py管道,在这里编辑数据存储的过程。
6. 程序执行 start.py定义一个执行命令的程序。
程序执行效果如下:
本次分享就到这里,小啾感谢您的关注与支持! |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/27 15:26:26- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |