pands.qcut 太慢?使用numpy来让速度起飞
对于数据处理,一般来说,处理数独方面,pdDataFame < pd.Series < np.array
最近在使用 pd.qcut 进行数据划分方面的工作,发现速度真是的是慢的难以忍受
import numpy as np
import pandas as pd
首先构造一个 100 x 5000 的,取值范围在 [1, 100] 的DataFrame
df = pd.DataFrame(np.random.randint(1, 100, (100, 5000)))
df.head()
| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 4990 | 4991 | 4992 | 4993 | 4994 | 4995 | 4996 | 4997 | 4998 | 4999 |
---|
0 | 54 | 63 | 21 | 45 | 87 | 29 | 6 | 79 | 19 | 41 | ... | 51 | 91 | 70 | 63 | 76 | 36 | 88 | 10 | 24 | 92 |
---|
1 | 88 | 95 | 57 | 77 | 77 | 88 | 26 | 47 | 2 | 63 | ... | 20 | 50 | 67 | 33 | 5 | 96 | 68 | 49 | 25 | 60 |
---|
2 | 2 | 5 | 37 | 28 | 72 | 14 | 27 | 53 | 39 | 8 | ... | 84 | 53 | 93 | 90 | 60 | 33 | 48 | 82 | 56 | 61 |
---|
3 | 20 | 81 | 12 | 96 | 33 | 56 | 89 | 27 | 5 | 84 | ... | 19 | 39 | 85 | 44 | 9 | 70 | 79 | 42 | 10 | 46 |
---|
4 | 76 | 65 | 59 | 39 | 38 | 14 | 79 | 31 | 66 | 1 | ... | 74 | 3 | 66 | 72 | 57 | 74 | 70 | 28 | 20 | 51 |
---|
5 rows × 5000 columns
首先使用 pd.qcut 来进行划分,因为pd.qcut传入的参数只能是一维的,
因此,对于DataFrame的操作需要使用apply, 并且指定axis=1(因为我们想要的是对每一行进行划分)
然后指定划分组数 q=5,并且指定结果返回【1-5】之间的label
%%time
pd_result = df.apply(pd.qcut, q=5, axis=1, labels=list(range(1, 6))).values
CPU times: user 699 ms, sys: 7.09 ms, total: 707 ms
Wall time: 706 ms
基于上述的执行结果可以看到,只用pd.qcut进行数据划分耗费时间约为706ms,实际处理的数据更加复杂的时候,耗费的时间会更多。
我们看下划分结果:
pd_result
array([[3, 4, 2, ..., 1, 2, 5],
[5, 5, 3, ..., 3, 2, 4],
[1, 1, 2, ..., 5, 3, 4],
...,
[2, 3, 4, ..., 3, 5, 5],
[5, 4, 3, ..., 2, 2, 1],
[3, 2, 2, ..., 5, 5, 2]], dtype=object)
我们再来看下使用numpy实现pd.qcut功能
至于为啥numpy比pandas快,相信有很多博客已经给了解释,这里就不赘述了
%%time
def np_qcut(arr, q):
""" 输入的arr是numpy 一维数组"""
res = np.zeros(arr.size)
na_mask = np.isnan(arr)
res[na_mask] = np.nan
x = arr[~na_mask]
sorted_x = np.sort(x)
idx = np.linspace(0, 1, q+1) * (sorted_x.size - 1)
pos = idx.astype(int)
fraction = idx % 1
a = sorted_x[pos]
b = np.roll(sorted_x, shift=-1)[pos]
bins = a + (b - a) * fraction
bins[0] -= 1
res[~na_mask] = np.digitize(x, bins, right=True)
return res
np_result = np.apply_along_axis(np_qcut, axis=1, arr=df.values, q=5)
CPU times: user 35.2 ms, sys: 2.61 ms, total: 37.8 ms
Wall time: 36.5 ms
芜湖~
看到使用np_qcut进行划分耗费的时间约为 36.5ms,比pd.qcut速度快了将近 20 倍!
我们接下来看下pd.qcut划分的结果和np_qcut划分的结果是否一致:
np.alltrue(pd_result == np_result)
True
从上面的对比结果来看,所有的划分结果都是一致的,说明使用numpy实现pd.qcut成功!
ヾ(o′?`o)ノ
|