IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 【python爬虫学习篇】请求模块urllib -> 正文阅读

[Python知识库]【python爬虫学习篇】请求模块urllib

目录

1,请求模块urllib

1.1,urllib模块包含的多个子模块

1.2,使用urlopen()方法发送请求

1.2.1,简介

1.2.2,发送Get请求

1.2.3,发送POST请求

1.2.4,设置网络超时

1.3,复杂的网络请求

1.3.1,Request()的语法格式:

1.3.2,设置请求头

1.3.3,异常处理


1,请求模块urllib

(介绍:urllib模块为python自带的网络请求模块,无需导入)

1.1,urllib模块包含的多个子模块

?urllib.request用于实现基本HTTP请求的模块。

?urllib.error异常处理模块,如果在发送网络请求时出现了错误,可以捕获异常进行异常的有效处理。

?urllib.parse:用于解析URL的模块。

?urllib.robotparser:用于解析robots.txt文件,判断网站是否可以爬取信息。

1.2,使用urlopen()方法发送请求

1.2.1,简介

urllib.request模块提供了urlopen()方法,用于实现最基本的HTTP请求,然后接收服务端所返回的响应数据。

urlopen()方法的语法格式:

urllib.request.urlopen(url,date=None[timeout,]*,cafile=None,capth=None,cadefault=False,context=None)

urllib.request.urlopen(url,date=None[timeout,]*,cafile=None,capth=None,cadefault=False,context=None)

?url:需要访问网址的URL完整地址

?date:该参数默认为None,通过该参数确定请求方式,如果是None请求方式为GET,否则请求方式为POST。

?timeout:以秒为单位,设置超时。

?cafile、capath:指定一组HTTPS请求受信任的CA证书,cafile指定包含CA证书的单个文件,capth指定证书文件目录。

?cadefault:CA证书默认值。

?context:描述SSL选项的实例。

1.2.2,发送Get请求

在使用urlopen()方法实现一个网络请求时,所返回的是一个http.client.HTTPResponse对象,在HTTPResponse对象中包含着需要获取信息的方法以及属性,式例如下

import urllib.request                     #导入request子模块
url="https://www.python.org/"     
response=urllib.request.urlopen(url=url)  #发送网络请求
print('响应状态码为:',response.status)
print('响应数据类型为:',type(response))
print('相应头所有信息为:',response.getheaders())
print('相应头指定信息为:',response.getheader('Accept-Ranges'))
#读取HTML代码并进行utf-8解码
print('Python 官网 HTML 代码如下:\n',response.read().decode('utf-8'))

代码结果!

1.2.3,发送POST请求

urlopen方法在默认情况下发送的是Get请求,在发送POST请求时,需要为其设置data参数,该参数是bytes类型,所以需要使用bytes()方法将参数进行数据转化。

import urllib.request                     #导入request子模块
url="https://www.python.org/"     
response=urllib.request.urlopen(url=url)  #发送网络请求
print('响应状态码为:',response.status)
print('响应数据类型为:',type(response))
print('相应头所有信息为:',response.getheaders())
print('相应头指定信息为:',response.getheader('Accept-Ranges'))
#读取HTML代码并进行utf-8解码
print('Python 官网 HTML 代码如下:\n',response.read().decode('utf-8'))

?

运行结果如下:

1.2.4,设置网络超时

点这

1.3,复杂的网络请求

(介绍:前面的urlopen只能实现最基本的网络请求,所以......看后续)

1.3.1,Request()的语法格式:

urllib.request.Request(url,data=None,haeders{},origin_req_host=None,unverifiable=False,method=None)

urllib.request.Request(url,data=None,haeders{},origin_req_host=None,unverifiable=False,method=None)

?headers:设置请求头信息,该参数类型为字典类型。添加请求头信息最常见的用法就是修改User-Agent来伪装成浏览器,例如,headers={'User-Agent':'Mozilla/5.0(Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/83.0.4103.61 Safari/537.36'},表示伪装谷歌浏览器进行网络请求

?origin_req_host:用于设置请求方的host名称或IP

?unverfiable:用于设置网页是否需要验证,默认值为False

?method:用于设置请求方式,如GET,POST等,默认为GET请求

1.3.2, 设置请求头

设置请求头参数是为了模拟浏览器向网页后台发送网络请求,这样可以避免服务器的反爬措施。

设置请求头实例:

如果需要设置请求头信息,那么首先要通过Request类构造一个带有headers请求头信息的Request对象,然后为urlopen()方法传入Request对象,再进行网络请求发送。

import urllib.request
import urllib.parse
url='https://www.httpbin.org/post'
#定义请求头信息,这里是模拟谷歌浏览器
headers={'User-Agent':'Mozilla/5.0(Windows NT 10.0;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/83.0.4103.61 Safari/537.36'}
#将表单数据转化为bytes类型,并设置编码方式为:utf-8
data=bytes(urllib.parse.urlencode({'hello':'python'}),encoding='utf-8')
#创建Resquest对象
r=urllib.request.Request(url=url,data=data,headers=headers,method='POST')
#发送网络请求
response=urllib.request.urlopen(r)
#读取并解码
print(response.read().decode('utf-8'))

1.3.3,异常处理

urllib模块中urllib.error子模块包含了URLError和HTTPError俩个比较重要的异常类。

URLError类中提供了一个reason属性,可以调用该属性查看错误。

HTTPError类有三个属性,

(1)code:返回HTTP的状态码。

(2)reason:返回错误原因。

(3)headers:返回请求头。

由于HTTPErrorURLError的子类,有时候HTTPError类会有捕捉不到的异常,所以可以先捕捉HTTPError类,然后再捕捉URLError类,这样可以起双重保险,例如:

#双重异常捕捉
import urllib.request
import urllib.error
try:
    url=urllib.request.urlopen('https://www.httpbin.org/post/iii',timeout=0.1)
    print('没有异常')
except urllib.error .HTTPError as error2:
    print('状态码:',error2.code)
    print('HTTPError异常信息为:',error2.reason)
    print('请求头信息如下:',error2.headers)
except urllib.error.URLError as error1:
    print('URLError异常信息为:',error1.reason)

由此可知HTTPError没有捕捉到 time out超时,再然后就被URLError捕捉到了。

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-05-18 17:35:34  更:2022-05-18 17:38:05 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/18 11:42:49-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码