[Python知识库] Python并发编程

Python并发编程

一、Python对并发编程的支持
二、怎样选择多线程多进程多协程？
- 1、什么是CPU密集型计算、IO密集型计算？
- 2、多线程、多进程、多协程的对比
- 3、怎样根据任务选择对应的技术？
三、Python速度慢的罪魁祸首--全局解释器锁GIL
- 1、Python速度慢的两大原因
- 2、GIL是什么？
- 3、为什么有GIL这个东西？
- 4、怎样规避GIL带来的限制？
四、使用多线程，Python爬虫被加速10倍
- 1、Python创建多线程的方法
五、Python实现生产者消费者爬虫
- 1、多组件的Pipeline技术架构
- 2、生产者消费者爬虫的架构
- 3、多线程数据通信的queue.Queue
- 4、代码编写实现生产者消费者爬虫
六、Python线程安全问题以及解决方案
- 1、线程安全概念介绍
- 2、Lock用于解决线程安全问题
- 3、实例代码演示问题以及解决方案
七、Python好用的线程池ThreadPoolExecutor
- 1、线程池的原理
- 2、使用线程池的好处
- 3、ThreadPoolExecutor的使用语法
- 4、使用线程池改造爬虫程序
八、Python使用线程池在Web服务中实现加速
- 1、Web服务的架构以及特点
- 2、使用线程池ThreadPoolExecutor加速
- 3、代码用Flask实现Web服务并实现加速
九、使用多进程multiprocessing模块加速程序的运行
- 1、有了多线程threading，为什么还要用多进程multiprocessing？
- 2、多进程multiprocessing知识梳理（对比多线程threading）
- 3、代码实战：单线程、多线程、多进程对比CPU密集计算速度
十、Python在Flask服务中使用多进程池加速程序运行
十一、Python异步IO实现并发爬虫
十二、在异步IO中使用信号量控制爬虫并发度

一、Python对并发编程的支持

1.多线程：threading，利用CPU和IO可以同时执行的原理，让CPU不会干巴巴等待IO完成
2.多进程：multiprocessing，利用多核CPU的能力，真正的并行执行任务
3.异步IO：asyncio，在单线程利用CPU和IO同时执行的原理，实现函数异步执行

4.使用Lock对资源加锁，防止冲突访问
5.使用Queue实现不同线程/进程之间的数据通信，实现生产者-消费者模式
6.使用线程池Pool/进程池Pool，简化线程/进程的任务提交、等待结束、获取结果
7.使用subprocess启动外部程序的进行，并进行输入输出交互

二、怎样选择多线程多进程多协程？

Python并发编程有三种方式：多线程Thread、多进程Process、多协程Coroutine

1、什么是CPU密集型计算、IO密集型计算？

2、多线程、多进程、多协程的对比

一个进程中可以启动N个线程，一个线程中可以启动N个协程

3、怎样根据任务选择对应的技术？

三、Python速度慢的罪魁祸首–全局解释器锁GIL

1、Python速度慢的两大原因

相比于C/C++/JAVA ,Python确实慢，在一些特殊场景下，Python比C++慢100~200倍。由于速度慢的原因，很多公司的基础架构代码依然用C/C++开发。比如各大公司（阿里/腾讯/快手）的推荐引擎、搜索引擎、存储引擎等底层对性能要求高的模块。

2、GIL是什么？

全局解释器锁（英语：Global Interpreter Lock，缩写GIL）是计算机程序设计语言解释器用于同步线程的一种机制，它使得任何时刻仅有一个线程在执行。即便在多核处理器上，使用GIL的解释器也只允许同一时间执行一个线程。

由于GIL的存在，即使电脑有多核CPU，单个时刻也只能使用1个线程，相比于并发加速的C++/JAVA所以慢。

3、为什么有GIL这个东西？

简而言之：Python设计之初，为了规避并发问题引入GIL，现在想去除却去不掉。
原因详解：为了解决多线程之间数据完整性和状态同步问题，Python中对象的管理，是使用引用计数器进行的，引用数为0则释放对象。
开始：线程A和线程B都引用了对象obj，obj.ref_num=2，线程A和B都想撤销对obj的引用

4、怎样规避GIL带来的限制？

1、多线程threading机制依然是有用的，用于IO密集型计算
因为在I/O（read, write, send, recv, etc.）期间，线程会释放GIL，实现CPU和IO的并行。因此多线程用于IO密集型计算依然可以大幅提升速度。
但是多线程用于CPU密集型计算时，只会更加拖慢速度。
２、使用multiprocessing的多进程机制实现并行计算，利用多核CPU优势。
为了应对GIL问题，Python提供了multiprocessing。

四、使用多线程，Python爬虫被加速10倍

1、Python创建多线程的方法

3、速度对比：单线程爬虫vs多线程爬虫
single thread cost: 5.592846155166626 seconds
multi thread cost: 1.0412259101867676 seconds.

五、Python实现生产者消费者爬虫

1、多组件的Pipeline技术架构

复杂的事情一般都不会一下子做完，而是分很多中间步骤一步步完成。

2、生产者消费者爬虫的架构

3、多线程数据通信的queue.Queue

4、代码编写实现生产者消费者爬虫

六、Python线程安全问题以及解决方案

1、线程安全概念介绍

线程安全指某个函数、函数库在多线程环境中被调用时，能够正确地处理多个线程之间得共享变量，使程序功能正确完成。
由于线程的执行随时会发生切换，就造成了不可预料的结果，出现线程不安全。

2、Lock用于解决线程安全问题

3、实例代码演示问题以及解决方案

七、Python好用的线程池ThreadPoolExecutor

1、线程池的原理

线程的生命周期

新建线程系统需要分配资源、终止线程系统需要回收资源。如果可以重用线程，则可以减去新建/终止的开销。

2、使用线程池的好处

（1）提升性能：因为减去了大量新建、终止线程的开销，重用了线程资源；
（2）适用场景：适合处理突发性大量请求或需要大量线程完成任务、但实际任务处理时间较短
（3）防御功能：能有效避免系统因为创建线程过多，而导致系统负荷过大相应变慢等问题
（4）代码优势：使用线程池的语法比自己新建线程执行线程更加简洁

3、ThreadPoolExecutor的使用语法

4、使用线程池改造爬虫程序

八、Python使用线程池在Web服务中实现加速

1、Web服务的架构以及特点

Web后台服务的特点：
（1）Web服务对响应时间要求非常高，比如要求200ms返回
（2）Web服务有大量的依赖IO操作的调用，比如磁盘文件、数据库、远程API
（3）Web服务经常需要处理几万人、几百万人的同时请求

2、使用线程池ThreadPoolExecutor加速

使用线程池ThreadPoolExecutor的好处：
（1）方便将磁盘文件、数据库、远程API的IO调用并发执行
（2）线程池的线程数目不会无限创建（导致系统挂掉），具有防御功能

3、代码用Flask实现Web服务并实现加速

九、使用多进程multiprocessing模块加速程序的运行

1、有了多线程threading，为什么还要用多进程multiprocessing？

如果遇到CPU密集型计算，多线程反而会降低执行速度！！

multiprocessing模块就是Python为了解决GIL缺陷引入的一个模块，原理是用多进程在多CPU上并行执行。

2、多进程multiprocessing知识梳理（对比多线程threading）

3、代码实战：单线程、多线程、多进程对比CPU密集计算速度

single thread, cost: 0.0010006427764892578 seconds.
multi thread, cost: 0.0040018558502197266 seconds.
multi process, cost: 0.9257152080535889 seconds.