[开发测试] scrapy对接selenium原理超详细解读！！！！

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 开发测试 -> scrapy对接selenium原理超详细解读！！！！ -> 正文阅读

[开发测试]scrapy对接selenium原理超详细解读！！！！

详解

下载器中间件常见方法解读

下载器中间件有什么作用:

1:在scheduler（调度器）中调取一个request（请求），发送给Downloader（下载器）之前,我们可以对request（请求）进行修改.

2:在Downloader（下载器）返回response（响应）给spider之前,我们可以对response（响应）进行修改.

下载器中间件的功能十分强大,修改User-Agent,处理重定向,设置代理,失败重试,设置cookie等都需要它来操作.

首先，我们要先理解下载器中间件的常见的方法

1、from_crawler(cls, crawler)

此方法是下载器中间件的主要入口，接受一个crawler实例

@classmethod
def from_crawler(cls, crawler):
    settings = crawler.settings
    return cls()

通过类方法 from_crawler 将它传递给扩展(extensions)。该对象提供对所有Scrapy核心组件的访问，也是扩展访问Scrapy核心组件和挂载功能到Scrapy的唯一途径。

Crawler必须使用 scrapy.spiders.Spider 子类及 scrapy.settings.Settings 的对象进行实例化

中间件中大部分类方法都是为了获取设置setting中的自定义的信息。

@classmethod将此方法变为类方法，
详情讲解请移步：python 类方法实例方法静态方法作用及区别

2、process_request(request, spider)

为通过下载中间件的每个请求调用此方法。

    def process_request(self, request, spider):
        # request
        # spider指的是当前是哪个爬虫发送过来的request对象

        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        return None

process_request()应该是： return None，返回一个 Response对象，返回一个Request 对象，或 raise IgnoreRequest。

如果它返回None，Scrapy 将继续处理这个请求，执行所有其他中间件，直到最终调用适当的下载器处理程序执行请求（并下载其响应）。

如果它返回一个Response对象，Scrapy 就不会调用任何其他方法process_request()或process_exception()方法，或者适当的下载函数；它会返回那个响应process_response() 安装的中间件的方法总是在每次响应时调用。

如果它返回一个Request对象，Scrapy 将停止调用 process_request 方法并重新安排返回的请求。执行新返回的请求后，将在下载的响应上调用适当的中间件链。

如果引发IgnoreRequest异常，将process_exception()调用已安装的下载器中间件的方法。如果它们都没有处理异常，Request.errback则调用请求 ( )的 errback函数。如果没有代码处理引发的异常，它将被忽略并且不记录（与其他异常不同）。

参数 request ( Requestobject) – 正在处理的请求
spider ( Spiderobject) – 此请求针对的蜘蛛

3、process_response(request, response, spider)

处理响应：当下载器完成http请求，传递响应给引擎的时候该方法被调用

    def process_response(self, request, response, spider):
        # request-我们发送了哪个请求得到了当前的响应
        # spider- 我们使用了哪个爬虫发送了请求为了得到当前的响应

        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response

process_response()应该：返回一个Response 对象，返回一个Request对象或引发IgnoreRequest异常。

如果它返回一个Response（它可能是相同的给定响应，也可能是一个全新的响应），则该响应将继续使用process_response()链中的下一个中间件的进行处理。

如果它返回一个Request对象，中间件链就会停止，并且返回的请求被重新安排在将来下载。这与从返回请求的行为相同process_request()。

如果它引发IgnoreRequest异常，Request.errback则调用请求 ( )的 errback
函数。如果没有代码处理引发的异常，它将被忽略并且不记录（与其他异常不同）。

参数 request (is a Requestobject) – 发起响应的请求
response ( Responseobject) – 正在处理的响应
spider ( Spiderobject) – 此响应针对的蜘蛛

4、process_exception(request, exception, spider)

Scrapyprocess_exception()在下载处理程序或process_request()（来自下载器中间件）引发异常（包括IgnoreRequest异常）时调用

    def process_exception(self, request, exception, spider):
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        pass