[网络协议] python爬虫学习9

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 网络协议 -> python爬虫学习9 -> 正文阅读

[网络协议]python爬虫学习9

python爬虫学习9

解析连接-urlparse方法

- - python爬虫学习9
  - - 解析连接

解析连接

前面我们知道，urllib中的parse模块定义了处理URL的接口，通过调用该模块我们可以实现，例如URL各部分的抽取、合并以及连接转换。

下面，让我们一起了解几个parse模块中的常用方法：
- urlparse方法
```
import urllib.parse

# prase.urlparse

url = "https://baike.baidu.com/item/Python/407313?fr=aladdin"
result = urllib.parse.urlparse(url)

print(type(result))
print(result)
```
  运行结果：
  
  可以看到结果是一个 urllib.parse.ParseResult 类，共包含六部分：
  - scheme
  - netloc
  - path
  - params
  - query
  - fragment

    # 
    原链接：
    https://baike.baidu.com/item/Python/407313?fr=aladdin
    通过结合url，我们可以发现urlparse在解析url的时候有特定的分隔符：
    
    + ：//前面即为scheme，代表协议
    + 第一个/符号前即为netloc，域名
    + 后面是path，及访问路径
    + 分号；后面是params，代表参数
    + 问号？后面是查询条件query，一般用作GET类型的URL
    + 井号#后面是锚点，fragment，用于确定页面内部的下拉位置
    一个标准URL都会符合这个格式

urlparse的参数

在这里插入图片描述

url, 这是必填项，代表带解析的URL

scheme，这是默认的协议（如http或https等）。如果带解析的url中没有协议信息，就会将之作为默认协议

# urlparse 的参数
from urllib import parse

# url中无协议，传入scheme参数
url = 'www.baidu.com/index.html;user?id=5#comment'
result = parse.urlparse(url,scheme='https')
print(result)

print('---------------------')

# url中有协议，传入scheme
url = 'http://www.baidu.com/index.html;user?id=5#comment'
result = parse.urlparse(url,scheme='https')
print(result)

# 有结果可以看出，scheme参数的优先级更高

运行结果：

在这里插入图片描述

allow_fragment,是否忽略fragment。如果此项被设置为False，那么fragment部分就会被忽略，他会只解析其他的参数，而fragment参数直接为空。

from urllib import parse

url = 'http://www.baidu.com/index.html;user?id=5#comment'
result = parse.urlparse(url,allow_fragments=False)
print(result)

# 当URL中不包含params和query时，这时fragment就会被解析为path中的一部分
url = 'http://www.baidu.com/index.html#comment'

运行结果：

在这里插入图片描述

返回值的获取

# 实际上urlparse方法返回的是一个元祖，所以我们可以这样获取：

url = 'http://www.baidu.com/index.html;user?id=5#comment'
result = parse.urlparse(url)
print(result[0],result.netloc,sep='\n')