前言:
Scrapy是由python语言开发的一个快速、高效的web抓取框架,用于抓取web站点并从页面中提取结构化的数据,只需要实现少量的代码,就能够快速的抓取。它最吸引人的地方在于它是一个爬虫框架,任何人都可以根据自己的需求方便的修改。scrapy的创建和执行都需要在命令行下运行,也就意味着scrapy里面会有很多的命令需要在命令行下才能运行,今天我们就用过这些好用的命令,来对网址进行一下网页分析。
命令:scrapy view
>>> scrapy view url地址
这个命令通过我们需要查看的网页,在命令下输入该网页的网址,scrapy会把这个网页自动保存成一个html并且会给我们自动打开呈现出来,现在有很多网页都是通过JavaScript的ajax加载的,所以我们经常请求后,显示不出我们需要的数据内容,我们可以通过view这个命令来查看网页内是否存在我们需要的数据。
从图中可以看出,通过view命令在加上网址,及能直接跳转到这个网页,这个网页里面显示的是什么内容,也就是网页能给我们请求返回什么响应的内容。
上图这个就是网页就没有给我显示全部的数据内容,这样就可以判断该网页是通过AJAX加载的,所以直接请求是没有我们需要的数据。
命令:scrapy shell
>>> scrapy shell url地址
通过这个命令在加上需要请求的网址,可以获取到该网址响应后的数据,而且可以通过scrapy shell内的命令,进行查看该网址请求后的各种信息,可以查看它的request和response的状态情况,还可以直接提取该网页的信息,
>>> request
>>> response
如图:
>>> response.text
还可以看到响应后的数据,如图:
scrapy还内置了3个解析工具,xpath,css选择器和re(正则表达式),而且这三个解析工具都支持在scrapy shell命令下执行,
>>> response.css('.mc>.mc_list.clearfix .tit>h3>a::text')[0].get()
>>> response.css('.mc>.mc_list.clearfix .tit>h3>a::text').getall()
如图:
>>> response.css('.mc>.mc_list.clearfix .xiang_price>span:nth-child(1)::text').getall()
通过上面这些命令语句就可以轻松的听取出来我们需要的数据,从而来判断分析这个网址到底能不能提取出来数据,或者是自己写的提取方法是否成功。
结语:
scrapy是一个非常强大的爬虫框架,它通过异步形式的爬取,非常适合我们需要爬取大量数据要求的,它内置了很多很有用的命令,对于我们平时提取网页数据,判断网页的情况都有很方便的命令支持。
scrapy官网:https://scrapy.org/感兴趣的,可以去官网了解更多。
|