scrapy官方文档地址:https://docs.scrapy.org/en/latest/
1、scrapy简介
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
简单说呢就是一个爬虫框架,bb一堆那么怎么用呢?
2、入门示例
关于scrapy的安装,自行查阅相关文档。
以文档scrapy tutorial(scrapy手册)中的示例为例,代码如下:
原始页面如下:
有下一页:
代码如下:
import scrapy
class QuotesSpider(scrapy.Spider):
name = 'quotes'
start_urls = [
'http://quotes.toscrape.com/tag/humor/',
]
def parse(self, response):
for quote in response.css('div.quote'):
yield {
'author': quote.xpath('span/small/text()').get(),
'text': quote.css('span.text::text').get(),
}
next_page = response.css('li.next a::attr("href")').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
名词解析:
- start_urls:要爬取的页面列表
- parse():解析爬取的页面
- response.css():css语法获取数据
- response.xpath():xpath语法获取数据
- .get():获取选中第一个
非项目运行命令:
scrapy runspider xxx.py
若想要将结果存储为json文件,可添加如下参数:
scrapy runspider xxx.py -o yyy.json
若想要将结果存储为其他格式文件中,可添加如下参数:
scrapy runspider xxx.py -o xxx.zzz -t zzz
源代码仓库地址:https://gitee.com/gaogzhen/python-study
QQ群:433529853
|