[Python知识库] python爬虫

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> python爬虫 -> 正文阅读

[Python知识库]python爬虫

python爬虫基本库——从urllib库开始

urllib是python内置的HTTP请求库，它可以看作处理url组件的集合。urllin库包含四大模块分别是：

(1)urllib.request:请求模块

(1)urllib.error:异常处理模块

(3)urllib.parse:url解析模块

下面我们利用urllib模块快速爬取百度首页的内容：

import urllib.request  # 导入urlli.request请求模块

# 导入urllib.request库中的urlopen()方法，并传入百度的url
response = urllib.request.urlopen("http://www.baidu.com")
# 使用read()读取爬到的网页内容，并采用utf-8的编码方式
html = response.read().decode("utf-8")
print(html)

上述代码就是一个简单爬取网页的案例，爬取到的是整个百度页面的HTML内容。