[Python知识库] 浏览器的模拟

有的时候，我们无法爬取一些网页，得到源码不是正确的，因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。

那么如果我们向爬取这些网页的信息，应该怎么办呢？

可以设置一些Headers信息，模拟成浏览器去访问这些网站，此时，就能够解决这个问题了。

那我们该添加什么头部信息呢？

我们需要让爬虫模拟成浏览器，模拟成浏览器可以设置User-Agent信息。

我们通过案例说明一下：

看一下，我们得到是源码是什么

我们需要设置header头来模拟浏览器访问

url="https://search.jd.com/Search?keyword=python&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=python&page=1"

??? # 设置表头，伪装成浏览器访问

??? headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}

??? # 向目标网站发送请求并获取网页源码

??? rs = requests.get(url,headers=headers)

??? rs.encoding="utf-8"

??? # 网页源码

body = rs.text

加:2021-12-03 12:59:47 更:2021-12-03 13:00:10

-2026/5/8 23:43:14-

网站联系: qq:121756557 email:121756557@qq.com IT数码