IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Python数据分析5-数据分组与聚合 -> 正文阅读

[人工智能]Python数据分析5-数据分组与聚合

? ? ? ?

目录

5.1数据分组

5.1.1GroupBy简介

5.1.2列名分组?

?5.1.3按列表或元组分组

?5.1.4按字典分组

5.1.5按函数分组

5.2聚合运算

5.2.1聚合函数

5.2.2 多函数应用

? ? ? ? ?1 一行多函数

? ? ? ? ?2 多列多函数

? ? ? ? ?3 不同列不同函数

?5.3分组运算

?5.3.1transform方法

?5.3.2apply方法

5.4数据透视表

5.4.1透视表

5.4.2交叉表


????????数据的分组统计是数据分析工作中的重要环节。本节将讲解GroupBy的原理和使用方法;聚合函数的使用;富足运算中transform和apply方法的使用 ;通过pandas创建数据透视表的方法;最后通过一个综合示例。巩固数据分析统计的使用。

5.1数据分组

5.1.1GroupBy简介

? ? ? ? GroupBy技术用于数据分组运算,类似于Excel的分类汇总(对于不同分类进行运算),其运算的核心模式为split-apply-combine,如下图所示,首先,数据及按照key(分组键)的方式分成小的数据片(split);然后对每一个数据片进行操作,如分类求和(apply)最后将结果再组合起来形成新的数据及(combine)

? ? ? ? 利用GroupBy方法可以轻松地完成分组统计的任务。以消费数据集为例,通过性别分别计算消费平均值,如下图

? ? ? ? 返回的grouped为GroupBy对象,是保存的中间数据,该对象调用mean()方法即可返回数据。

? ? ? ? mena方法完成了分组数据的聚合运算,返回列一个Series数据,更多聚合运算将在后面讲解。当然,也可以通过分组键进行计算,通过day和time,计算小费平均值。

? ? ? ? ?通过pandas绘图分析可以分析出,晚餐(Dinner)比午餐(Lunch)的小费金额多,而且周六,周日的小费金额明显比周四、周五多,如下图

? ? ? ? ?GroupBy对象是可迭代的,其构造为一组二元元祖,如下图

?注:GroupBy由分组名和数据片构成。

? ? ? ? size方法可以返回各分组的大小,如下图

5.1.2列名分组?

? ? ? ? 在6.1节中,groupby方法使用的分组键为Series。当然,分组键也支持其他的格式,下面的内容中将一一介绍分组键格式和使用方法。DataFrame数据的列索引名称可以作为分组键,如下图

? ? ? ? 用列索引名称可以作为分组键时,用于分组的对象必须是DataFrame数据本身,否则搜索不到索引名会报错,绘制下图,可以看出吸烟对消费数据的影响不大。

? ? ? ? ?上述方法返回的是多列DataFrame的数据,如果只需要获取tip(小费)列数据,通过索引选取即可。但GroupBy对象也可以通过索引获取tip列,然后再进行聚合运算,他其实相当于语法糖,更好用,如下图

? ? ? ? 作图可以看出,小费金额基本上与聚餐人数呈正相关,但人数为5时,有下降的趋势。

?5.1.3按列表或元组分组

? ? ? ? 分组键也可以是长度适当的列表或元组,长度适当其实就是要与带分组的DataFrame的行数一样,简单地理解,就是把列表或者元组当成DataFarme的一列,然后按其分组

?5.1.4按字典分组

? ? ? ? ?如果按照原始的DataFrame中的分组信息很难确定或者不存在 ,可通过字典结构,定义分组的信息,如图

5.1.5按函数分组

? ? ? ? 函数作为分组键的原理类似于字典,通过映射关系进行分组,但是函数分组更加灵活,如下图,通过DataFrame最后一列的数值进行正负分组。

? ? ? ? 对于层次化索引,可通过级别进行分组,通过level参数,输入编号或名称即可,如下图

? ? ? ? 当然也可以在列上进行分组(axis=1)如下图

5.2聚合运算

? ? ? ? 聚合运算就是对分组后的数据进行计算,产生标量值的数据转换过程。本书将讲解常用的聚合函数和自定义聚合函数的用法。

5.2.1聚合函数

? ? ? ? 前面的例子中使用了部分聚合运算方法,如mean、count、sum函数,如下表所示,为常用的聚合运算方法。

参数????????????????

使用说明

count计数
sum求和
median求算数中位数
mean求平均值
std、var无偏标准差和方差
min、max最大值、最小值
prod求积
first、last第一个和最后一个值

注:空值不参与计算

? ? ? ? 然后通过性别分组,计算小费的最大值。

? ? ? ? ?其实,除了上述聚合运算方法外,只要是Series或DataFrame支持的能用于分组的运算函数都可以拿来使用。

? ? ? ? ?对于更加复杂的聚合运算,可以自定义聚合函数,通过aggregate或agg参数传入即可。例如,通过性别分类,计算小费最大值与最小值的差(极差),如下图

? ? ? ? ?如下图,我们可以看出,男性(Male)的小费极差比女性(Female)大很多,说明在小费给予中,男性的差异较大,主观性更大。

5.2.2 多函数应用

? ? ? ? 1 一行多函数

? ? ? ? 如下图,对agg参数传入多函数列表,即可完成一列的多函数运算。

? ? ? ? ?如果不想使用默认的运算函数列名 ,可以元组的形式传入,前面为名称,后面为聚合函数,如下图

? ? ? ? ?2 多列多函数

? ? ? ? 对多列进行多聚合函数运算时,会产生层次化索引,如下图

? ? ? ? ?3 不同列不同函数

? ? ? ? 如果需要对不同列使用不同的函数运算,可以通过字典来定义映射关系,如下图

? ? ? ? ?如果希望返回的结果不以分组键为索引,通过as_index=False可以完成,如下图

? ? ? ? ?5.3分组运算

? ? ? ? ?分组运算包含了聚合运算,聚合运算是数据转换的特里。本节将讲解transform和apply方法,通过这两个方法,可以实现更多的分组预算。

5.3.1transform方法

? ? ? ? 首先对小费数据集新建一列用于存放男性和女性小费的平均值。常用的方法是,先聚合运算,然后再将其合并。大家注意观察下面的方法,注意理解。

? ? ? ? ?上面的方法虽然也能实现,但过于繁琐,不灵活。通过transform方法可以使得运算分布到每一行。

?5.3.2apply方法

? ? ? ? apply方法的功能更加强大,例如可以计算根据性别分组后小费金额排在前5名的DataFrame数据,如下图

? ? ? ? ?如果希望返回的结果不以分组键为索引,通过group_keys=False可以完成,如下图

? ? ? ? ?例如,前面对缺失数据的处理可以通过数值填充来完成,图下图,也可以通过平均值对缺失值进行填充。

? ? ? ? ?可以这样假设:男生和女生的数学成绩还是有去别的,希望通过分组后,在进行插值,如下图

5.4数据透视表

? ? ? ? ?说到数据透视表,我们可能并不陌生,在Excel中,就有数据透视表的功能,通过行、列、值形成一个透视表。在pandas中,通过pivot_table函数也可以实现同样的功能。

5.4.1透视表

? ? ? ? 首先介绍pivot_table函数的常用参数,value代表的是值,index为行,columns为列,其他参数在实际案例中讲解。

? ? ? ? ?这里的值计算为平均值(默认),也可以通过aggfunc参数来指定,如下图

? ? ? ? ?通过margins参数可加入分项小计

?注:更多参数的使用说明,可以查看帮助文档

5.4.2交叉表

? ? ? ? 交叉表是一种用于计算分组频率的特殊透视表,这里还以小费数据为例,其使用方法如下图

? ? ? ? ?通过div,可以使得每行的和为1,如下图

? ? ? ? ?这样可以看出聚餐人数的比例情况,在pandas绘图中,通过stacked=True可以绘制堆积图

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-23 11:28:02  更:2021-09-23 11:28:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/22 11:04:37-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码