[Python知识库] python爬虫—

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> python爬虫——高级功能 -> 正文阅读

[Python知识库]python爬虫——高级功能

1、解析robots.txt

# section 1
User-agent: BadCrawler
Disallow: /

# section 2
User-agent: *
Disallow: /trap 
Crawl-delay: 5

# section 3
Sitemap: http://example.python-scraping.com/sitemap.xml

?这个?robots.txt?文件中说：对于BadCrawler?这样的代理用户是禁止浏览本站点的。

我们现在使用这个?Python?自带的?robotparser?模块测试一下：

from urllib import robotparser


# 将创建RobotFileParser对象封装成函数，传入文件的链接，返回解析器对象
def get_robots_parser(robots_url):
    rp = robotparser.RobotFileParser()
    rp.set_url(robots_url)
    rp.read()
    print(rp)
    url = 'http://example.python-scraping.com'
    user_agent = 'BadCrawler'
    print('BadCrawler:',rp.can_fetch(user_agent, url))
    user_agent = 'GoodCrawler'
    print('GoodCrawler:',rp.can_fetch(user_agent, url))
    return rp
get_robots_parser('http://example.python-scraping.com/robots.txt')