常见得反爬机制及解决办法

1、针对请求头做出得反爬

简介：网站通过去检查headers中的User-Agent字段来反爬，如果我们没有设置请求头，那么headers默认是python这样就会出现访问失败、没有权限等原因，如果去伪造一个请求头是可以避开得，不过如果短时间内频繁使用同一个User-Agent访问可能会被检测出来导致被封掉爬虫

解决办法：通过fake_useragent构造随机请求头

第一步：下载fake_useragent

可以直接在cmd当中输入：

pip install fake-useragent

接下来设置代码如下：

import requests
from fake_useragent import UserAgent
import random  #随机模块
ua = UserAgent()  # 创建User-Agent对象
useragent = ua.random
headers = {'User-Agent': useragent}

到这里得时候其实已经写好了，但肯定有小伙伴会想着去测试一下是不是真的自己使用了随机请求头那么我们去访问??http://httpbin.org/headers 看下返回得请求头数据

第二步：验证请求头

import requests
from fake_useragent import UserAgent
import random  #随机模块
ua = UserAgent()  # 创建User-Agent对象
useragent = ua.random  #随机使用请求头
headers = {'User-Agent': useragent}
url='http://httpbin.org/headers'
renoes=requests.get(url,headers=headers)
print(renoes.text)

运行两次结果如下?

?可以发现请求头已经发生了变化并且每次不一样

补充说明一点：

在使用fake_useragent有时候会报错第一个原因可能是UserAgent列表发生了变动，而本地UserAgent的列表未更新所导致

解决方法可以参考这篇文章?

(21条消息) 解决fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached问题_一条会编程的鱼-CSDN博客https://blog.csdn.net/weixin_43581288/article/details/106529656?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163523713016780357226389%2522%252C%2522scm%2522%253A%252220140713.130102334..%2522%257D&request_id=163523713016780357226389&biz_id=0&utm_medium=distribute.pc_search_result.none-task-blog-2~all~sobaiduend~default-1-106529656.first_rank_v2_pc_rank_v29&utm_term=fake_useragent.errors.FakeUserAgentError%3A+Maximum+amount+of+retries+reached&spm=1018.2226.3001.4187

如果通过上面那篇文章还是没有解决报错可以参考下面这篇

(21条消息) 简单修改setting文件，解决fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached_大河的博客-CSDN博客https://blog.csdn.net/qq_45773419/article/details/119063825?spm=1001.2014.3001.5506

然后得话还有一个要注意得地，用这个方法爬取某些网站得时候获取网站源代码，你会发现获取得竟然是一个提示，提示说浏览器版本太老啦，其实这个原因就是fake_useragent里面浏览器版本确实挺低得，遇到这种情况用自己得浏览器请求头就可以解决，可以这样写

import requests
import random  #随机模块
#这个列表里面存放你自己收集来得请求头，下面得请求头是我用fake_useragent随机生成得，仅用来做演示如果直接使用还是有可能会提示浏览器版本低
UserAgents=[
'Mozilla/5.0 (Windows x86; rv:19.0) Gecko/20100101 Firefox/19.0',
'Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36',
'Mozilla/5.0 (Microsoft Windows NT 6.2.9200.0); rv:22.0) Gecko/20130405 Firefox/22.0',
'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.17 Safari/537.36',
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1468.0 Safari/537.36'
]
user_agent=random.choice(UserAgents)
headers = {'User-Agent':user_agent}
url='http://httpbin.org/headers'
renoes=requests.get(url,headers=headers)
print(renoes.text)