| |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| -> 开发工具 -> 爬虫中scrapy数据建模与请求 -> 正文阅读 |
|
|
[开发工具]爬虫中scrapy数据建模与请求 |
|
每日分享: 迷茫时读书,难过时运动,低谷时沉淀,独处时自省。 做一个能够抵御寒冬,也能够拥抱春天的人。 一、数据建模
1.1 为什么建模
1.2 如何建模在items.py文件中定义要提取的字段:
1.3 如何使用模板类模板类定义以后需要在爬虫中导入并实例化,之后的使用方法和之前使用字典相同
注意:
从第一个myspider运行,所以把第一个myspider设为根目录之后导入就直接可以: from myspider.items import MyspiderItem 如何设置根目录:
变色了就说明设置成功:
?1.4 开发流程总结1. 创建项目 ? ? ? ? scrapy startproject 项目名 2. 明确目标 ? ? ? ? 在items.py文件中进行建模 3. 创建爬虫 ? ? ? ? 3.1 创建爬虫 ? ? ? ? ? ? ? ? scrapy genspider 爬虫名 允许的域名 ? ? ? ? 3.2 完成爬虫 ? ? ? ? ? ? ? ? 修改start_urls ? ? ? ? ? ? ? ? 检查修改allowed_domains ? ? ? ? ? ? ? ? 编写解析方法 4. 保存数据 ? ? ? ? 在pipelines.py文件中定义对数据处理的管道 ? ? ? ? 在settings.py文件中注册启用管道 1.5 开发流程实例(在上篇文章例子基础上更改的代码)1. 创建项目:scrapy startproject myspider 2. 在items.py文件中进行建模:
源码:
3.1 创建爬虫:scrapy genspider itcast itcast.cn 3.2 完成爬虫:
源码:
4. 保存数据:????????1. 在pipelines.py文件中定义对数据处理的管道
源码:
????????2. 在settings.py文件中注册启用管道
?5. 运行程序先cd到myspider目录,之后输入scrapy crawl itcast即可运行
结果:
|
|
|
|
|
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| 360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年11日历 | -2025/11/30 7:25:19- |
|
| 网站联系: qq:121756557 email:121756557@qq.com IT数码 |