[Python知识库] 只需几行代码，Python 执行速度就可以提高了30倍！

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> 只需几行代码，Python 执行速度就可以提高了30倍！ -> 正文阅读

[Python知识库]只需几行代码，Python 执行速度就可以提高了30倍！

Python 是一种流行的编程语言，也是数据科学界最受欢迎的语言。由于 Python 的动态性和多功能性，与其他流行编程语言相比，Python 的速度主要较慢，C语言的执行比 Python 代码快10到100倍。

在本文中，我们将讨论如何多模块并行执行自定义Python函数，并进行性能比较。

Multiprocessing

数据探索、数据分析和特征工程是数据科学模型开发的重要元素。在将原始数据输入机器学习模型之前，需要对其进行设计和处理。对于小尺寸的数据集，执行过程在几秒钟内完成，但是对于大尺寸的数据集，执行过程将变得非常繁琐。

如果单核处理器同时分配多个任务，它必须不断地中断每个任务并切换到一个任务来保持所有进程的运行。对于多核处理器来说，可以在 CPU 的不同核上同时执行多个任务，这个概念称为并行处理。

并行处理是提高 Python 程序性能的有效途径。Python 有一个多处理模块，使我们能够在CPU的不同内核上并行执行程序。

实施

我们将使用 multiprocessing 模块中的 Pool 类，它可以针对多个输入值并行执行函数。

现在，让我们使用 multiprocessing 模块中的 Pool 类为数据集的不同块并行执行函数。数据集的每个块都将被并行处理。

import multiprocessing
from functools import partial
from QuoraTextPreprocessing import preprocess

BUCKET_SIZE = 50000

def run_process(df, start):
    df = df[start:start+BUCKET_SIZE]
    print(start, "to ",start+BUCKET_SIZE)
    temp = df["question"].apply(preprocess)

chunks  = [x for x in range(0,df.shape[0], BUCKET_SIZE)]   
pool = multiprocessing.Pool()
func = partial(run_process, df)
temp = pool.map(func,chunks)
pool.close()
pool.join()