| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 浏览器的模拟—Headers属性 -> 正文阅读 |
|
[Python知识库]浏览器的模拟—Headers属性 |
有的时候,我们无法爬取一些网页,得到源码不是正确的,因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。 那么如果我们向爬取这些网页的信息,应该怎么办呢? 可以设置一些Headers信息,模拟成浏览器去访问这些网站,此时,就能够解决这个问题了。 那我们该添加什么头部信息呢? 我们需要让爬虫模拟成浏览器,模拟成浏览器可以设置User-Agent信息。 我们通过案例说明一下: https://search.jd.com/Search?keyword=python&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=python&page=1 看一下,我们得到是源码是什么 我们需要设置header头来模拟浏览器访问 url="https://search.jd.com/Search?keyword=python&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=python&page=1" ??? # 设置表头,伪装成浏览器访问 ??? headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'} ??? # 向目标网站发送请求并获取网页源码 ??? rs = requests.get(url,headers=headers) ??? rs.encoding="utf-8" ??? # 网页源码 body = rs.text |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/16 2:50:22- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |