IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> python爬虫学习12 -> 正文阅读

[Python知识库]python爬虫学习12

python爬虫学习12

  • robotparser

    ? 上一篇我们一同了解了Robots协议,了解协议之后我们就可以使用robotparser模块来解析robot.txt文件了。

    • RobotFileParser

      • 声明:

        在这里插入图片描述

        只需要在使用该类时传入robot.txt的url连接即可

      • set_url ()方法:用来设置robot.txt文件的连接

        在这里插入图片描述

      • read()方法:读取robot.txt文件进行分析

        在这里插入图片描述

      • parse()方法:用于解析robot.txt文件

        在这里插入图片描述

      • can_fetch()方法:有两个参数,第一个是user-Agent,第二个是要抓取的URL,返回的结果是 True 或 False 。表示user-Agent指示的搜索引擎是否可以抓取这个URL。

        在这里插入图片描述

      • mtime()方法:返回上次抓取和分析robots.txt的时间,这对于长时间分析和抓取robots.txt文件的搜索爬虫很有必要,我们要定期检查来抓取最新的robots.txt

      • modified()方法:他同样对长时间抓取和分析的搜索爬虫很有必要,可以将当前时间设置为上次抓取和分析robots.txt文件的时间。

      • 实例

        from urllib import robotparser
        
        rp = robotparser.RobotFileParser()
        rp.set_url('https://www.baidu.com/robots.txt')
        rp.read()
        
        # 用can_fetch 判断网页是否可以被抓取
        print(rp.can_fetch('Baiduspider','https://www.baidu.com'))
        print(rp.can_fetch('Baiduspider','https://www.baidu.com/homepage/'))
        print(rp.can_fetch('Googlebot','https://www.baidu.com/homepage/'))
        
        # 从结果我们可以看到 用Baiduspider可以抓取homepage页面,而Googlebot就不行。
        

        运行结果 :

        在这里插入图片描述

        打开百度的robots.txt

        在这里插入图片描述

        可以看到其对Baiduspider没有限制

  • 本章结语

    urllib库的使用到此结束,对于urllib库,我们学习了其中的request模块、error模块、parse模块以及robotparser模块的基本用法。下一篇我们将学习更加强大的requests库。

未完待续…

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2022-03-11 22:09:03  更:2022-03-11 22:09:13 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 21:52:01-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码