IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> pands.qcut 太慢?使用numpy来让速度起飞 -> 正文阅读

[人工智能]pands.qcut 太慢?使用numpy来让速度起飞

pands.qcut 太慢?使用numpy来让速度起飞

对于数据处理,一般来说,处理数独方面,pdDataFame < pd.Series < np.array

最近在使用 pd.qcut 进行数据划分方面的工作,发现速度真是的是慢的难以忍受

import numpy as np
import pandas as pd

首先构造一个 100 x 5000 的,取值范围在 [1, 100] 的DataFrame

df = pd.DataFrame(np.random.randint(1, 100, (100, 5000)))
df.head()
0123456789...4990499149924993499449954996499749984999
05463214587296791941...51917063763688102492
18895577777882647263...2050673359668492560
225372872142753398...84539390603348825661
32081129633568927584...1939854497079421046
47665593938147931661...7436672577470282051

5 rows × 5000 columns

首先使用 pd.qcut 来进行划分,因为pd.qcut传入的参数只能是一维的,

因此,对于DataFrame的操作需要使用apply, 并且指定axis=1(因为我们想要的是对每一行进行划分)

然后指定划分组数 q=5,并且指定结果返回【1-5】之间的label

%%time
pd_result = df.apply(pd.qcut, q=5, axis=1, labels=list(range(1, 6))).values
CPU times: user 699 ms, sys: 7.09 ms, total: 707 ms
Wall time: 706 ms

基于上述的执行结果可以看到,只用pd.qcut进行数据划分耗费时间约为706ms,实际处理的数据更加复杂的时候,耗费的时间会更多。

我们看下划分结果:

pd_result
array([[3, 4, 2, ..., 1, 2, 5],
       [5, 5, 3, ..., 3, 2, 4],
       [1, 1, 2, ..., 5, 3, 4],
       ...,
       [2, 3, 4, ..., 3, 5, 5],
       [5, 4, 3, ..., 2, 2, 1],
       [3, 2, 2, ..., 5, 5, 2]], dtype=object)

我们再来看下使用numpy实现pd.qcut功能

至于为啥numpy比pandas快,相信有很多博客已经给了解释,这里就不赘述了

%%time
def np_qcut(arr, q):
    """ 输入的arr是numpy 一维数组"""
    # 构造一个结果序列,避免直接改变原数组
    res = np.zeros(arr.size)
    # nan的结果不参与计算
    na_mask = np.isnan(arr)
    res[na_mask] = np.nan
    x = arr[~na_mask]  # 实际参与计算的数据
    # 获取划分关键字
    # 这部分代码是pd.qcut内部实现的做法
    sorted_x = np.sort(x)
    idx = np.linspace(0, 1, q+1) * (sorted_x.size - 1)
    pos = idx.astype(int)
    fraction = idx % 1
    a = sorted_x[pos]
    b = np.roll(sorted_x, shift=-1)[pos]
    bins = a + (b - a) * fraction
    # 由于使用的是np.digitize,bins的第一个数值如果是数组中的最小值的话,
    # 划分后会将其放到【第0组】,因此这里将第一个值减一,
    # 可以将待划分数组中的所有值都包含进去
    bins[0] -= 1 
    
    res[~na_mask] = np.digitize(x, bins, right=True)
    return res

np_result = np.apply_along_axis(np_qcut, axis=1, arr=df.values, q=5)
CPU times: user 35.2 ms, sys: 2.61 ms, total: 37.8 ms
Wall time: 36.5 ms

芜湖~

看到使用np_qcut进行划分耗费的时间约为 36.5ms,比pd.qcut速度快了将近 20 倍!

我们接下来看下pd.qcut划分的结果和np_qcut划分的结果是否一致:

np.alltrue(pd_result == np_result)
True

从上面的对比结果来看,所有的划分结果都是一致的,说明使用numpy实现pd.qcut成功!

ヾ(o′?`o)ノ

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-20 18:23:44  更:2021-11-20 18:24:37 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 6:24:38-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码