| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 开发工具 -> 爬虫中scrapy数据建模与请求 -> 正文阅读 |
|
[开发工具]爬虫中scrapy数据建模与请求 |
每日分享: 迷茫时读书,难过时运动,低谷时沉淀,独处时自省。 做一个能够抵御寒冬,也能够拥抱春天的人。 一、数据建模
1.1 为什么建模
1.2 如何建模在items.py文件中定义要提取的字段: class MyspiderItem(scrapy.Item): name = scrapy.Field() level = scrapy.Field() text = scrapy.Field() 1.3 如何使用模板类模板类定义以后需要在爬虫中导入并实例化,之后的使用方法和之前使用字典相同 from items import MyspiderItem ... def parse(self, response): # 实例化后可直接使用 item = MyspiderItem() item['name'] = node.xpath('./h3/text()').extract_first() item['level'] = node.xpath('./h4/text()')[0].extract() item['text'] = node.xpath('./p/text()')[0].extract() print(item) 注意:
从第一个myspider运行,所以把第一个myspider设为根目录之后导入就直接可以: from myspider.items import MyspiderItem 如何设置根目录: 变色了就说明设置成功: ?1.4 开发流程总结1. 创建项目 ? ? ? ? scrapy startproject 项目名 2. 明确目标 ? ? ? ? 在items.py文件中进行建模 3. 创建爬虫 ? ? ? ? 3.1 创建爬虫 ? ? ? ? ? ? ? ? scrapy genspider 爬虫名 允许的域名 ? ? ? ? 3.2 完成爬虫 ? ? ? ? ? ? ? ? 修改start_urls ? ? ? ? ? ? ? ? 检查修改allowed_domains ? ? ? ? ? ? ? ? 编写解析方法 4. 保存数据 ? ? ? ? 在pipelines.py文件中定义对数据处理的管道 ? ? ? ? 在settings.py文件中注册启用管道 1.5 开发流程实例(在上篇文章例子基础上更改的代码)1. 创建项目:scrapy startproject myspider 2. 在items.py文件中进行建模:源码:
3.1 创建爬虫:scrapy genspider itcast itcast.cn 3.2 完成爬虫:
源码:
4. 保存数据:????????1. 在pipelines.py文件中定义对数据处理的管道 源码:
????????2. 在settings.py文件中注册启用管道 ?5. 运行程序先cd到myspider目录,之后输入scrapy crawl itcast即可运行 结果: |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/15 14:40:52- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |