[Python知识库] Python 爬虫笔记

IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> Python 爬虫笔记 -> 正文阅读

[Python知识库]Python 爬虫笔记

组成：

调度器：调度URL管理器、下载器、解析器之间的协调工作
URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复爬取
网页下载器：下载网页，网页下载器有urllib 包括需要登录、代理、和cookie，requests(第三方包)
网页解析器：解析 DOM 树，通过正则表达式、html.parser、beautifulsoup、、lxml
应用程序：从网页中提取的有用数据组成的一个应用

查询待爬url

返回带爬取url

命令下载网页

返回下载内容

交给解析器

返回有用数据

有用数据

调度器

URL管理器

网页下载器

网页解析器

应用程序

urllib

urllib.request 模块是用来打开和读取URLs的；
??urllib.request.urlopen() 接口函数就可以很轻松的打开一个网站，读取并打印信息。
urllib.error 模块包含一些有urllib.request产生的错误，可以使用try进行捕捉处理；
urllib.parse 模块包含了一些解析URLs的方法；
urllib.robotparser 模块用来解析robots.txt文本文件.它提供了一个单独的RobotFileParser类，通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面。

Python知识库最新文章

Python中String模块

【Python】 14-CVS文件操作

python的panda库读写文件

使用Nordic的nrf52840实现蓝牙DFU过程

【Python学习记录】numpy数组用法整理

Python学习笔记

python字符串和列表

python如何从txt文件中解析出有效的数据

Python编程从入门到实践自学/3.1-3.2

上一篇文章下一篇文章查看所有文章

加:2021-10-13 11:24:31 更:2021-10-13 11:26:34

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2026年4日历

-2026/4/1 3:08:40-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码