[Python知识库] 基于Scrapy构架的爬虫之问题一：我的第一个代码

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> 基于Scrapy构架的爬虫之问题一：我的第一个代码 -> 正文阅读

[Python知识库]基于Scrapy构架的爬虫之问题一：我的第一个代码

“难过难过，难着难着就过去了”

作为一个爬虫初学者来说，这是我第一个能看懂，并且困扰我三四天的代码。

我的爬虫时基于Scrapy构架的，爬取24小时热销榜小说的代码，需要爬取到的信息包括小说名称、作者、类型、形式（连载或者完结）并将其保存到CSV文件中，因为这个爬虫简单，只涉及到了HotSalesSpider类，其所有功能都在其上实现；除此之外还用到了parse()函数，下面进行依次介绍：

（1）HotSalesSpider类：其基类为Spider,类中定义了两个属性，name和start_urls，name为爬虫名；start_urls用来存储目标网址列表。

（2）parse()函数是爬虫方法的核心，需要完成两个主要任务：

提取页面的数据
提取页面的链接，并对页面链接产生下载请求

首先在cmd中建立项目，具体命令为：

?>d

>cd d:\Python? ? (注意：Python为项目所在的文件夹)

>scrapy startproject Python? ? （注意第一次使用cmd创建爬虫项目时，项目的名称要与放置项目文件夹的名称相同，必须为英文，下一次就可以任意了。）

项目创建完成后会在所在文件夹产生相应的配置文件，如下图：

之后在Spider文件下创建新的.py代码，具体代码如下：

from scrapy import Request
from scrapy.spiders import Spider
class HotSalesSpider(Spider): ?#类HotSalesSpider，基于Spider
? ? #定义爬虫名称
? ? name = 'hot'
? ? #起始的URL列表
? ? #qidian_headers = {"User-Agent":Mozilla/"
? ? ?## ? ? ? ? ? ? ? ? "5.0 (Windows NT 10.0;"
? ? ? ?# ? ? ? ? ? ? ? "WOW64) AppleWebKit/"
? ? ? ? # ? ? ? ? ? ? ?"537.36 (KHTML, like Gecko) Chrome/"
? ? ? ? ?# ? ? ? ? ? ? "91.0.4472.164 Safari/"
? ? ? ? ? # ? ? ? ? ? ?"537.36"}
? ? #def start_requests(self):
? ? ?# ? ur1 = "https://www.qidian.com/rank/hotsales?style=1"
? ? ? # ?yield Request(ur1,headers=self.qidian_headers,callback=self.qidian_parse)
? ? start_urls = ["https://www.qidian.com/rank/hotsales?style=1"]
? ? #解析函数
? ? def parse(self, response): ?#定义方法parse()解析函数，提取页面数据、链接并对链接页面的下载请求
? ? ? ? #使用xpath定位到小说内容的div元素
? ? ? ? list_selector = response.xpath("//div[@class='book-mid-info']")
? ? ? ? #list_selecter是一个选择器对象列表，存储有多个选择器对象，一个选择器对应一个div元素
? ? ? ? #依次读取每部小说的元素，从中获取名称、作者、类型和形式
? ? ? ? for one_selector in list_selector:
? ? ? ? ? ? #获取小说名称
? ? ? ? ? ? name = one_selector.xpath("h4/a/text()").extract()[0]
? ? ? ? ? ? #获取作者 ,extract()[0]为提取提取xpath（）或css()返回的SelectorList对象中文本数据，返回unicode字符串列表
? ? ? ? ? ? author = one_selector.xpath("p[1]/a[1]/text()").extract()[0]
? ? ? ? ? ? #获取类型
? ? ? ? ? ? type = one_selector.xpath("p[1]/a[2]/text()").extract()[0]
? ? ? ? ? ? #获取形式（连载/完本）
? ? ? ? ? ? form = one_selector.xpath("p[1]/span/text()").extract()[0]
? ? ? ? ? ? #将爬取到的一部小说保存到字典中
? ? ? ? ? ? hot_dict = {"name":name, ? #小说名称
? ? ? ? ? ? ? ? ? ? ?"author":author, ?#作者
? ? ? ? ? ? ? ? ? ? ?"type":type, ? ? ?#类型
? ? ? ? ? ? ? ? ? ? ?"form":form} ? ? ?#形式
? ? ? ? ? ?# print(hot_dict)
? ? ? ? ? ? #使用yield返回字典
? ? ? ? ? ? yield hot_dict