| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> Python爬虫——使用线程池爬取同程旅行景点数据并做数据可视化 -> 正文阅读 |
|
[Python知识库]Python爬虫——使用线程池爬取同程旅行景点数据并做数据可视化 |
大家好!我是霖hero 正所谓:有朋自远方来,不亦乐乎?有朋友来找我们玩,是一件很快乐的事情,那么我们要尽地主之谊,好好带朋友去玩耍!那么问题来了,什么时候去哪里玩最好呢,哪里玩的地方最多呢? 今天将手把手教你使用线程池爬取同程旅行的景点信息及评论数据并作词云、数据可视化!!!带你了解各个城市的游玩景点信息。 在开始爬取数据之前,我们首先来了解一下线程。 目录 线程进程:进程是代码在数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位。 线程:是轻量级的进程,是程序执行的最小单元,是进程的一个执行路径。 一个进程中至少有一个线程,进程中的多个线程共享进程的资源。 线程生命周期在创建多线程之前,我们先来学习一下线程生命周期,如下图所示: 由图可知,线程可以分为五个状态——新建、就绪、运行、阻塞、终止。 首先新建一个线程并开启线程后线程进入就绪状态,就绪状态的线程不会马上运行,要获得CPU资源才会进入运行状态,在进入运行状态后,线程有可能会失去CPU资源或者遇到休眠、io操作(读写等操作)线程进入就绪状态或者阻塞状态,要等休眠、io操作结束或者重新获得CPU资源后,才会进入运行状态,等到运行完后进入终止状态。 注意:新建线程系统是需要分配资源的,终止线程系统是需要回收资源的,那么如何减去新建/终止线程的系统开销呢,这时我们可以创建线程池来重用线程,这样就可以减少系统的开销了。 在创建线程池之前,我们先来学习如何创建多线程。 创建多线程创建多线程可以分为四步:
创建函数为了方便演示,我们拿博客园的网页做爬虫函数,具体代码如下所示:
首先导入requests网络请求库,把我们所有的要爬取的URL保存在列表中,然后自定义函数get_parse来发送网络请求、打印请求的URL和响应的字符长度。 创建线程在上一步我们创建了爬虫函数,接下来将创建线程了,具体代码如下所示:
首先我们导入threading模块,自定义multi_thread函数,再创建一个空列表threads来存放线程任务,通过threading.Thread()方法来创建线程。其中:
注意args中的参数要以元组的方式传入,然后通过.append()方法把线程添加到threads空列表中。 启动线程线程已经创建好了,接下来将启动线程了,启动线程很简单,具体代码如下所示:
首先我们通过for循环把threads列表中的线程任务获取下来,通过.start()来启动线程。 等待结束启动线程后,接下来将等待线程结束,具体代码如下所示:
和启动线程一样,先通过for循环把threads列表中的线程任务获取下来,再使用.join()方法等待线程结束。 多线程已经创建好了,接下来将测试一下多线程的速度如何,具体代码如下所示:
运行结果如下图所示: 多线程爬取50个博客园网页只要1秒多,而且多线程的发送网络请求的URL是随机的。 我们来测试一下单线程的运行时间,具体代码如下所示:
运行结果如下图所示: 单线程爬取50个博客园网页用了9秒多,单线程的发送网络请求的URL是按顺序的。 在上面我们说了,新建线程系统是需要分配资源的,终止线程系统是需要回收资源的,为了减少系统的开销,我们可以创建线程池。 线程池原理一个线程池由两部分组成,如下图所示:
当任务队列里有任务时,线程池的线程会从任务队列中取出任务并执行,执行完任务后,线程会执行下一个任务,直到没有任务执行后,线程会回到线程池中等待任务。 使用线程池可以处理突发性大量请求或需要大量线程完成任务(处理时间较短的任务)。 好了,了解了线程池原理后,我们开始创建线程池。 线程池创建Python提供了ThreadPoolExecutor类来创建线程池,其语法如下所示:
其中:
注意:在启动 max_workers 个工作线程之前也会重用空闲的工作线程。 在ThreadPoolExecutor类中提供了map()和submit()函数来插入任务队列。其中: map()函数map()语法格式为:
具体示例如下所示:
首先我们导入requests网络请求库、concurrent.futures模块,把所有的URL放在urls列表中,然后自定义get_parse()方法来返回网络请求返回的数据,再自定义map_pool()方法来创建代理池,其中代理池的最大max_workers为20,调用map()方法把网络请求任务放在任务队列中,在把返回的数据和URL合并为元组,并放在htmls列表中。 运行结果如下图所示: 可以发现map()函数返回的结果和传入的参数顺序是对应的。 注意:当我们直接在自定义方法get_parse()中打印结果时,打印结果是乱序的。 submit()函数submit()函数语法格式如下:
具体示例如下:
运行结果如下图所示: 注意:submit()函数输出结果需需要调用result()方法。 好了,线程知识就学到这里了,接下来开始我们的爬虫。 爬前分析首先我们进入同程旅行的景点网页并打开开发者工具,如下图所示: 经过寻找,我们发现各个景点的基础信息(详情页URL、景点id等)都存放在下图的URL链接中, 其URL链接为:
经过增删改查操作,我们可以把该URL简化为:
其中page为我们翻页的重要参数。 打开该URL链接,如下图所示: 通过上面的URL链接,我们可以获取到很多景点的基础信息,随机打开一个景点的详情网页并打开开发者模式,经过查找,评论数据存放在如下图的URL链接中, 其URL链接如下所示:
其中:action、labId、iid、sort为常量,sid是景点的id,page控制翻页,pageSize是每页获取的数据量。 在上上步中,我们知道景点id的存放位置,那么构造评论数据的URL就很简单了。 实战演练这次我们爬虫步骤是:
获取景点基本信息首先我们先获取景点的名字、id、价格、特色、地点和等级,主要代码如下所示:
首先自定义方法get_parse()来发送网络请求后使用parsel.Selector()方法来解析响应的文本数据,然后通过xpath来获取数据。 获取评论数据获取景点基本信息后,接下来通过景点基本信息中的sid来构造评论信息的URL链接,主要代码如下所示:
首先自定义方法get_data()并传入刚才获取的景点基础信息数据,然后通过景点基础信息的sid来构造评论数据的URL链接,当在构造评论数据的URL时,需要设置pageSize和page这两个变量来获取多条评论和进行翻页,构造URL链接后就发送网络请求。 这里需要注意的是:有些景点是没有评论,所以我们需要通过if语句来进行设置。 创建MySQL数据库这次我们把数据存放在MySQL数据库中,由于数据比较多,所以我们把数据分为两种数据表,一种是景点基础信息表,一种是景点评论数据表,主要代码如下所示:
首先我们调用pymysql.connect()方法来连接数据库,通过.cursor()获取游标,再通过.execute()方法执行单条的sql语句,执行成功后返回受影响的行数,然后关闭数据库连接,最后调用自定义方法create_table()来创建景点信息数据表。 这里我们只给出了创建景点信息数据表的代码,因为创建数据表只是sql这条语句稍微有点不同,其他都一样,大家可以参考这代码来创建各个景点评论数据表。 保存数据创建好数据库和数据表后,接下来就要保存数据了,主要代码如下所示:
首先我们调用pymysql.connect()方法来连接数据库,通过.cursor()获取游标,再通过.execute()方法执行单条的sql语句,执行成功后返回受影响的行数,使用了try-except语句,当保存的数据不成功,就调用rollback()方法,撤消当前事务中所做的所有更改,并释放此连接对象当前使用的任何数据库锁。 注意:srr是传入的景点信息数据。 创建线程池好了,单线程爬虫已经写好了,接下来将创建一个函数来创建我们的线程池,使单线程爬虫变为多线程,主要代码如下所示:
创建线程池的代码很简单就一个with语句和调用map()方法 运行结果如下图所示: 好了,数据已经获取到了,接下来将进行数据分析。 数据可视化首先我们来分析一下各个景点那个月份游玩的人数最多,这样我们就不用担心去游玩的时机不对了。 我们发现10月、2月、1月去广州长隆飞鸟乐园游玩的人数占总体比例最多。分析完月份后,我们来看看评论情况如何: 可以发现去好评占了绝大部分,可以说:去长隆飞鸟乐园玩耍,去了都说好。看了评论情况,评论内容有什么: 好了,获取旅游景点信息及评论并作词云、数据可视化就讲到这里了。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/15 21:03:57- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |