-
声明:
data:image/s3,"s3://crabby-images/6dccd/6dccd33e02360b3c6c956162464c043eb5511c34" alt="在这里插入图片描述"
只需要在使用该类时传入robot.txt的url连接即可
-
set_url ()方法:用来设置robot.txt文件的连接
data:image/s3,"s3://crabby-images/e50e2/e50e27382c30f83b7da5a093beec6a600dc07db9" alt="在这里插入图片描述"
-
read()方法:读取robot.txt文件进行分析
data:image/s3,"s3://crabby-images/f81bb/f81bb56e80298d0e39826e8218669802c49cb151" alt="在这里插入图片描述"
-
parse()方法:用于解析robot.txt文件
data:image/s3,"s3://crabby-images/78b23/78b2365ad3331cf76dc5e4f9b8a93ffada7f7352" alt="在这里插入图片描述"
-
can_fetch()方法:有两个参数,第一个是user-Agent,第二个是要抓取的URL,返回的结果是 True 或 False 。表示user-Agent指示的搜索引擎是否可以抓取这个URL。
data:image/s3,"s3://crabby-images/cef34/cef34fe6e21793e3e46e3eb9bdd39d6a5a3f0ff3" alt="在这里插入图片描述"
-
mtime()方法:返回上次抓取和分析robots.txt的时间,这对于长时间分析和抓取robots.txt文件的搜索爬虫很有必要,我们要定期检查来抓取最新的robots.txt
-
modified()方法:他同样对长时间抓取和分析的搜索爬虫很有必要,可以将当前时间设置为上次抓取和分析robots.txt文件的时间。
-
实例
from urllib import robotparser
rp = robotparser.RobotFileParser()
rp.set_url('https://www.baidu.com/robots.txt')
rp.read()
print(rp.can_fetch('Baiduspider','https://www.baidu.com'))
print(rp.can_fetch('Baiduspider','https://www.baidu.com/homepage/'))
print(rp.can_fetch('Googlebot','https://www.baidu.com/homepage/'))
运行结果 :
data:image/s3,"s3://crabby-images/2a6de/2a6decfba30bebc51d53f41350943ddbdc8010c2" alt="在这里插入图片描述"
打开百度的robots.txt
data:image/s3,"s3://crabby-images/9702e/9702ef3e253085212306a22b0ce1d75cd1326f3b" alt="在这里插入图片描述"
可以看到其对Baiduspider没有限制