[系统运维] scrapy爬虫retry使用

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 系统运维 -> scrapy爬虫retry使用 -> 正文阅读

[系统运维]scrapy爬虫retry使用

最近使用scrapy爬虫的过程中遇到response 403的问题，由于服务器拒绝，需要重新retry。查了很久，翻看文档终于明白scrapy自带的retry如何使用。

配置setting.py，在网上可以随意查找到，设置启动retry机制，：

DOWNLOADER_MIDDLEWARES = {
    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
} 

RETRY_ENABLE=True
RETRY_TIMES=100
RETRY_HTTP_CODECS = [403]
HTTPERROR_ALLOWED_CODES = [403] #当遇到403的时候爬虫脚本不退出

设置完之后重新跑脚本发现好像没有任何反应，查找文档发现，需要返回新的request

在parse中添加：

    def parse(self, response):
        if response.status == 403:
            time.sleep(50)
            new_request_or_none = get_retry_request(
                response.request,
                spider=self,
                reason='empty',
            )
            return new_request_or_none

重新启动，当遇到403的时候就会有反应了：