[Python知识库] python爬虫爬取小说

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> python爬虫爬取小说 -> 正文阅读

[Python知识库]python爬虫爬取小说

今天我们用爬虫框架feapder进行小说的简单爬取

话不多说

下面是代码

import feapder

path = r'D:\爬取文件'

#轻量级爬虫
class TaobaoSpider(feapder.AirSpider):

    def start_callback(self):
        print("爬虫开始")

    def end_callback(self):
        print("爬虫结束")

    #下发任务
    def start_requests(self):
        #网页地址链接
        yield feapder.Request('http://book.zongheng.com/showchapter/1141504.html', render=True)

    def parse(self, request, response):
        '''
        解析详情
        :param request:
        :param response:
        :return:
        '''
        #不支持的字符忽略
        response.encoding_errors = 'ignore'
        #找到网页内容标签
        content_list = response.xpath('//div[@class="volume-list"]/div[2]/ul')
        #创建字典
        lists = []
        for content in content_list:
            #遍历
            # print(content)
            #找章节标题
            title = content.xpath('li/a//text()').extract()
            #找章节链接
            href = content.xpath('li/a/@href').extract()
            #写入文件
            for title, href in zip(title, href):
                #看一下结果
                print(title, href)
                with open(path + f'{title}.txt', 'w', encoding='utf-8') as f:
                    for con in href:
                        f.write(con)
                print(f'{title} 下载完成')

if __name__ == '__main__':
    TaobaoSpider(thread_count=10).start()

Ok！，到此结束