IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 【python爬虫学习篇】请求模块urllib3 -> 正文阅读

[Python知识库]【python爬虫学习篇】请求模块urllib3

目录

1.urllib3

1.1,发送网络请求

?1.1.2,GET请求

?1.1.3,POST请求

?1.1.4,重试请求和处理响应内容

?1.1.5,JSON信息

1.2,复杂请求的发送

?1.2.1,设置请求头

?1.2.2,设置超时


1.urllib3

urllib3是一个第三方的请求模块,在功能上要比python自带的urllib强大,由于urllib3是第三方模块所以需要单独安装该模块。

安装命令:pip install urllib3

1.1,发送网络请求

1.1.2,GET请求

使用urllib3模块发送网络请求时,首先需要创建PoolManager对象 ,通过该对象调用request()方法来实现网络请求发送。

使用PoolManager对象向多个服务器发送请求。一个PoolManager对象就是一个连接池管理对象,通过该对象可以向多个服务器发送请求。

示例代码:

import urllib3                              #导入urllib3模块
urllib3.disable_warnings()                  #关闭ssl警告
jingdong_url='https://www.jd.com'           #京东url
python_url='https://www.Python.org'         #Python
baidu_url='https://www.baidu.com'           #百度
http=urllib3.PoolManager()                  #创建连接池管理对象
r1=http.request('GET',jingdong_url)         #向url地址发送GET请求
r2=http.request('GET',python_url)
r3=http.request('GET',baidu_url)
print('京东请求状态码:',r1.status)
print('Python请求状态码:',r2.status)
print('百度请求状态码:',r3.status)

运行结果:

?1.1.3,POST请求

示例代码:

import urllib3
urllib3.disable_warnings()                              #关闭ssl警告
url='https://www.httpbin.org/post'
fields={'name':'jack','country':'中国','age':'300'}     #定义字典类型的请求参数
http=urllib3.PoolManager()                              #创建连接池管理对象
r=http.request('POST',url,fields=fields)                #发送POST请求
print('返回结果:\n',r.data.decode('utf_8'))
print('返回结果二:',r.data.decode('unicode_escape'))

运行结果:

?

?1.1.4,重试请求和处理响应内容

通过reties参数设置重试请求,在默认情况下,request()方法的请求重试次数为3,改变重试次数,则可以设置reties参数。

发送网络请求后,将返回一个HTTPResponse对象,通过该对象中的info()方法即可获取HTTP响应头信息,该信息为字典(dict)类型的数据,所以通过for循环进行遍历才可以清晰的看清每条响应头信息的内容。

示例代码:

#重试请求,以及处理响应内容
import urllib3                                      #导入模块
urllib3.disable_warnings()                          #关闭ssl警告
url='https://www.httpbin.org/get'                   #测试地址
http=urllib3.PoolManager()                          #创建连接池
r=http.request('GET',url)                           #发送GET请求,默认重试请求
#重试请求
r1=http.request('GET',url,retries=5)                #设置5次重试请求
r2=http.request('GET',url,retries=False)            #关闭重试请求
print('重试请求测试:')
print('默认重试请求',r.retries.total)
print('设置重试请求次数:',r1.retries.total)
print('关闭重试请求次数:',r2.retries.total)
#处理响应内容
print('\n处理响应内容:')
response_header=r.info()                            #获取响应头
for key in response_header.keys():                  #循环遍历打印响应头信息
    print(key,':',response_header.get(key))

运行结果:

?1.1.5,JSON信息

处理返回的JSON信息。如果服务器返回一条JSON信息,而这条信息中只有某一条数据为可用数据时,则可以先将返回的JSON数据转化为字典数据,接着直接获取所对应的建的值即可。

代码示例:

#处理服务器返回的JSON信息
import urllib3
import json
urllib3.disable_warnings()
url='https://www.httpbin.org/post'
fields={'name':'jack','country':'中国','age':'200'}      #定义字典类型的请求参数
r=urllib3.PoolManager().request('POST',url,fields=fields)#创建连接池管理对象并发送POST请求
j=json.loads(r.data.decode('unicode_escape'))            #将响应数据转换为字典类型
print('数据类型:',type(j))
print('获取form对应的数据:',j.get('form'))
print('获取country对应的数据:',j.get('form').get('country'))

执行结果;

1.2,复杂请求的发送

1.2.1,设置请求头

大多数的服务器都会检测请求头信息,判断当前请求是否来自浏览器请求。使用request()方法设置请求头信息时,只需要为headers参数指定一个有效的字典(dict)类型的请求头信息即可。所以设置请求头信息前,需要在浏览器中找到一个有效的请求头信息。

通过F12(Ctrl+F12)进入开发者工具

?请求头信息获取完成以后,将User—Agent设置为字典数据的键,后面的数据设置为字典中的value。

代码示例:

#设置请求头
import urllib3
urllib3.disable_warnings()
url='https://www.httpbin.org/get'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) '
                       'AppleWebKit/537.36 (KHTML, like Gecko) '
                       'Chrome/92.0.4515.131 Safari/537.36 SLBrowser'
                       '/8.0.0.2242 SLBChan/1'}
http=urllib3.PoolManager()
r=http.request('GET',url,headers=headers)
print(r.data.decode('utf-8'))

运行结果:

?1.2.2,设置超时

在没有特殊要求的情况下,可以将设置超时的参数时间填写在request()方法或者PoolManager实列对象中,

代码示例:

#设置超时
import urllib3
urllib3.disable_warnings()                       #关闭ssl警告  
baidu_url='https://www.baidu.com'                #url
python_url='https://www.Python.org'
http=urllib3.PoolManager()                       #创建连接池管理对象
try:
    r=http.request('GET',baidu_url,timeout=0.01)#发送请求并设置超时时间为0.01秒
except Exception as error:
    print('百度超时:',error)
http2=urllib3.PoolManager(timeout=0.1)          #创建连接池管理对象并设置超时时间
try:
    r2=http2.request('GET',python_url)
except Exception as error:
    print('Python超时:',error)

运行结果:

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-05-21 18:55:28  更:2022-05-21 18:56:32 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/14 21:38:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码