此系列内容为 自己学习、整理内容,分享知识并供自己日后回顾。如果你能够看到内容有误,欢迎指正。如果你有疑问,欢迎提出,一起探讨,一起进步。👏👏👏👏👏
目录
1.Scrapy定义
2.Scrapy内容
3.Scrapy数据流过程
4.安装 Scrapy
1.Scrapy定义
? ? ? ? Scrapy 是一个纯 Python 实现的、流行的网络爬虫框架,它使用了一些高级功能来简化网页的爬取,能让我们的爬虫更加地规范、高效。
2.Scrapy内容
Scrapy内容
Scrapy Engine | Scrapy 引擎,负责控制整个系统地数据流和事件地触发 | Scheduler | 调度器,接受 Scrapy 引擎发来的请求并将其夹取队列中,等待引擎后续需要时使用 | Downloader | 下载器,爬取网页内容,将爬取道德数据返回给 Spiders (爬虫) | Spider | 爬虫,这部分是核心代码,用于解析、提取出需要地数据 | Item Pipeline | 数据管道,处理提取出的数据,主要是数据清洗、验证和数据存储 | Downloader middlewares | 下载器中间件,处理 Scrapy 引擎和下载器之间的请求和响应 | Spider middlewares | 爬虫中间件,处理爬虫输入的响应以及输出结果或新的请求 |
3.Scrapy数据流过程
Scarpy数据流过程
1 | Scrapy 引擎打开一个网站,找到处理该网站对应的爬虫,并爬取网页的第一个页面 | 2 | Scarpy 引擎从爬虫中获取第一个网页地址,并将其作为请求放进调度器中进行调度 | 3 | Scrapy 引擎从调度器中获取下一个网页的地址 | 4 | 调度器返回下一个网页的地址给 Scrapy 引擎,Scrapy 引擎通过下载器中间件传递给下载器进行爬取 | 5 | 爬取到数据后,下载器通过下载器中间件回传给 Scrapy 引擎 | 6 | Scrapy 引擎将爬取到数据通过爬虫中间件传递给爬虫进行数据解析、提取 | 7 | 爬虫处理完数据后,将提取的数据和新得请求回传给 Scrapy 引擎 | 8 | Scrapy 将提取出的数据传给数据管道进行数据清晰等操作,同时将新得请求传递给调度器准备进行下一页的爬取 | 9 | 重复 2-8 步,直到调度器中没有新的请求,数据爬取结束 |
4.安装 Scrapy
? ? ? ? 打开命令行,执行下列语句就可以在自己电脑中安装 Scrapy :
pip install scrapy -i https://pypi.doubanio.com/simple/
# 这句话后面 -i https://pypi.doubanio.com/simple/ 表示使用豆瓣的源,这样安装会更快
? ? ? ? ?安装完成后在命令行里输入 scarpy+回车,看到类似下列的输出内容就表示安装成功了。
Scrapy 2.5.1 - no active project
Usage:
scrapy <command> [options] [args]
Available commands:
bench Run quick benchmark test
commands
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
Use "scrapy <command> -h" to see more info about a command
?
|