IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Python——爬虫(Scrapy框架定义、内容、数据流流程、安装) -> 正文阅读

[人工智能]Python——爬虫(Scrapy框架定义、内容、数据流流程、安装)

此系列内容为 自己学习、整理内容,分享知识并供自己日后回顾。如果你能够看到内容有误,欢迎指正。如果你有疑问,欢迎提出,一起探讨,一起进步。👏👏👏👏👏

目录

1.Scrapy定义

2.Scrapy内容

3.Scrapy数据流过程

4.安装 Scrapy


1.Scrapy定义

? ? ? ? Scrapy 是一个纯 Python 实现的、流行的网络爬虫框架,它使用了一些高级功能来简化网页的爬取,能让我们的爬虫更加地规范、高效。

2.Scrapy内容

Scrapy内容
Scrapy EngineScrapy 引擎,负责控制整个系统地数据流和事件地触发
Scheduler调度器,接受 Scrapy 引擎发来的请求并将其夹取队列中,等待引擎后续需要时使用
Downloader下载器,爬取网页内容,将爬取道德数据返回给 Spiders (爬虫)
Spider爬虫,这部分是核心代码,用于解析、提取出需要地数据
Item Pipeline数据管道,处理提取出的数据,主要是数据清洗、验证和数据存储
Downloader middlewares下载器中间件,处理 Scrapy 引擎和下载器之间的请求和响应
Spider middlewares爬虫中间件,处理爬虫输入的响应以及输出结果或新的请求

3.Scrapy数据流过程

Scarpy数据流过程
1Scrapy 引擎打开一个网站,找到处理该网站对应的爬虫,并爬取网页的第一个页面
2Scarpy 引擎从爬虫中获取第一个网页地址,并将其作为请求放进调度器中进行调度
3Scrapy 引擎从调度器中获取下一个网页的地址
4调度器返回下一个网页的地址给 Scrapy 引擎,Scrapy 引擎通过下载器中间件传递给下载器进行爬取
5

爬取到数据后,下载器通过下载器中间件回传给 Scrapy 引擎

6Scrapy 引擎将爬取到数据通过爬虫中间件传递给爬虫进行数据解析、提取
7爬虫处理完数据后,将提取的数据和新得请求回传给 Scrapy 引擎
8Scrapy 将提取出的数据传给数据管道进行数据清晰等操作,同时将新得请求传递给调度器准备进行下一页的爬取
9重复 2-8 步,直到调度器中没有新的请求,数据爬取结束

4.安装 Scrapy

? ? ? ? 打开命令行,执行下列语句就可以在自己电脑中安装 Scrapy

pip install scrapy -i https://pypi.doubanio.com/simple/
# 这句话后面 -i https://pypi.doubanio.com/simple/ 表示使用豆瓣的源,这样安装会更快

? ? ? ? ?安装完成后在命令行里输入 scarpy+回车,看到类似下列的输出内容就表示安装成功了。

Scrapy 2.5.1 - no active project

Usage:
  scrapy <command> [options] [args]

Available commands:
  bench         Run quick benchmark test
  commands
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy <command> -h" to see more info about a command

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-14 21:38:18  更:2021-11-14 21:45:00 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 6:10:51-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码