1.Scrapy定义

? ? ? ? Scrapy 是一个纯 Python 实现的、流行的网络爬虫框架，它使用了一些高级功能来简化网页的爬取，能让我们的爬虫更加地规范、高效。

2.Scrapy内容

Scrapy内容
Scrapy Engine	Scrapy 引擎，负责控制整个系统地数据流和事件地触发
Scheduler	调度器，接受 Scrapy 引擎发来的请求并将其夹取队列中，等待引擎后续需要时使用
Downloader	下载器，爬取网页内容，将爬取道德数据返回给 Spiders （爬虫）
Spider	爬虫，这部分是核心代码，用于解析、提取出需要地数据
Item Pipeline	数据管道，处理提取出的数据，主要是数据清洗、验证和数据存储
Downloader middlewares	下载器中间件，处理 Scrapy 引擎和下载器之间的请求和响应
Spider middlewares	爬虫中间件，处理爬虫输入的响应以及输出结果或新的请求

3.Scrapy数据流过程

Scarpy数据流过程
1	Scrapy 引擎打开一个网站，找到处理该网站对应的爬虫，并爬取网页的第一个页面
2	Scarpy 引擎从爬虫中获取第一个网页地址，并将其作为请求放进调度器中进行调度
3	Scrapy 引擎从调度器中获取下一个网页的地址
4	调度器返回下一个网页的地址给 Scrapy 引擎，Scrapy 引擎通过下载器中间件传递给下载器进行爬取
5	爬取到数据后，下载器通过下载器中间件回传给 Scrapy 引擎
6	Scrapy 引擎将爬取到数据通过爬虫中间件传递给爬虫进行数据解析、提取
7	爬虫处理完数据后，将提取的数据和新得请求回传给 Scrapy 引擎
8	Scrapy 将提取出的数据传给数据管道进行数据清晰等操作，同时将新得请求传递给调度器准备进行下一页的爬取
9	重复 2-8 步，直到调度器中没有新的请求，数据爬取结束

4.安装 Scrapy

? ? ? ? 打开命令行，执行下列语句就可以在自己电脑中安装 Scrapy ：

pip install scrapy -i https://pypi.doubanio.com/simple/
# 这句话后面 -i https://pypi.doubanio.com/simple/ 表示使用豆瓣的源，这样安装会更快

? ? ? ? ?安装完成后在命令行里输入 scarpy+回车，看到类似下列的输出内容就表示安装成功了。

Scrapy 2.5.1 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  commands
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy <command> -h" to see more info about a command

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-11-14 21:38:18 更:2021-11-14 21:45:00

360图书馆购物三丰科技阅读网日历万年历 2025年11日历

-2025/11/28 5:40:49-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码