开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> Pandas -> 正文阅读

[Python知识库]Pandas

1 Series

结构：索引 + 一维数组数值

1.1 创建Series

通过三种方式创建：pd.Series ( list /array / dict)

列表list
数组array
字典dict（键——索引，值——值）

1.2 指定Series索引

pd.Series (list , index=[ ])
#Series默认索引为0 1 2 3…
#指定index ,索引长度要与值长度一致
在这里插入图片描述

1.3 获取Series数据

获取索引 .index
在这里插入图片描述
获取值 .values

1.4 Series运算

加减乘除
直接对Series进行操作
筛选

#筛选出大于3的数值
在这里插入图片描述

Series之间的操作

**两个series进行操作，相同索引的值进行运算；若无相同索引，最终相加结果赋值为NaN。
在这里插入图片描述

2 DataFrame

表格型数据结构，含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）；
既有行索引也有列索引，可以被看作由series组成的字典（共用同一个索引）。

2.1 创建Dataframe

pd. DataFrame (array / dict）

通过 array

未指定行索引和列索引，默认0 1 2…
在这里插入图片描述

指定行列索引：pd. DataFrame (arr , columns =[ ] , index=[ ])
在这里插入图片描述

通过dict

2.2 dataframe常见操作

查看数据

head()查看头数据 tail()查看尾数据
info() 查看数据结构及储存信息

describe() 查看数据按列的统计信息
在这里插入图片描述
#std代表标准差

mean()均值 median()中位数

在这里插入图片描述

index 行索引 columns 列索引
T转置

排序

sort_index（axis=0/1,ascending=True/False）

axis=0按行索引进行排序 axis=1按列索引进行排序
ascending=True（索引按从小到大排序）/False(索引按从大到小排序)
在这里插入图片描述

3 对比Series与Dataframe

DataFrame是由多个共用相同索引的Series组成，
Series没有列索引，DataFrame有列索引
可拆分、合并互相转化

3.1 Dataframe可拆分成多个Sereis

#通过相应列名
在这里插入图片描述

3.2 多个Sereis可组成Dataframe

在这里插入图片描述
#其中name,age,sex列为不同的Series.

3.3 其他：逐行读取数据

for index.value in df.iterrows():
在这里插入图片描述
读出具体数值

4 Pandas IO 操作（input/output文件的读与写）

url: ‘https://pandas.pydata.org/pandas- docs/ version/1.0.1 /users_guide /io.html’

4.1 读取数据

**查看当前目录下文件
!dir #Windows操作系统
在这里插入图片描述
!ls #Linux

read_csv 读取csv、txt数据
read_excel 读取excel数据

4.2 输出数据

to_excel

输出一个excel文件
在这里插入图片描述
df.to_excel(‘ ’,header=T/F,index=T/F)
#header=True/False 输出/不输出标题
index=True/False 输出/不输出索引

to_dict

输出一个字典
在这里插入图片描述

to_csv

输出一个csv文件

to_html

输出一个网页文件
在这里插入图片描述

5 loc与iloc数据选择

选择指定行列 loc/iloc

5.1 loc

选择列/行

loc [row,column]
#df.loc[ : , : ] 返回所有数据
#row 选择指定行数索引
df.loc[ : 3, : ] 返回前4行（0,1,2,3）
#column 选择指定的列名
df.loc[ : ,’列名’] 返回Series （1列）
df.loc[ : , [’列名’，’列名’]] 返回DataFrame （可多列）
#加中括号可返回多列DataFrame
在这里插入图片描述

筛选特定条件的DataFrame

选择出所有stockcode为71053的数据
在这里插入图片描述
选择出所有索引为偶数的数据 df .index%2==0

5.2 iloc

loc前面输入数字后面需要输入列名
iloc前后返回行列都需要输入数字，不能输入相应列名
#df.iloc[ :3 , : 3] 返回前3行前3列（0,1,2）与loc不同
在这里插入图片描述

6 pivot_table 数据透视表

#传入两个值要加中括号

df.pivot_table( ) 内部参数默认

aggfunc 默认计算均值，可进行修改用于求和等
#aggfunc=[np.sum,len,np.mean]
可传入字典，指定列进行相关计算
在这里插入图片描述
fill_value 空值填充
margins 统计，求和由aggfunc决定

7 merge连接

内部参数
在这里插入图片描述
how:
‘inner’内连接（默认内连接）根据on条件，列出左右两表共有数据
‘left’ 左连接表1的完全集，而表2中匹配的则有值，没有匹配的则以null值取代
‘right’右连接表2从完全集，而表1中匹配的则有值，没有匹配的则以null值取代
‘outer’全连接所有值

on =两个dataframe相同的列名
left_on=第一个dataframe列名
right_on=第二个dataframe列名
Suffixes=(‘_x’,’_y’) 可传入指定后缀名，如果两个dataframe有相同列名，则第一个dataframe列名默认后缀+‘_x’,第二个列名默认后缀+‘_y’
在这里插入图片描述

内连接
左连接
右连接
全连接

8 groupby分组

g=data.groupby(‘分组字段’)

过程是将一个DataFrame按照groupby字段，化分成若干个分组DataFrame，分组会返回一个DataFrameGroupby对象
在这里插入图片描述

list() 查看DataFrameGroupby对象内部情况
get_group() 查看一个组的数据情况 g.get_group()
agg函数聚合 data.groupby( ).agg( )

相关函数：
min 、max、 sum、 mean、 median、
count 计数，不包含NaN值、
size 计数，包含NaN值、
nunique 计算去重后的个数。
在这里插入图片描述
groupby分组后直接.agg()进行聚合操作

**可通过传入字典的形式不同列进行不同操作，也可对一个列进行多个操作

9 map、replace操作

9.1 map

内部参数
在这里插入图片描述

字典键值对替换，若字典中没有找到series中对应的值，则赋值为NaN
在这里插入图片描述

na_action

如果传入‘ignore’，则跳过对空值的操作
在这里插入图片描述

9.2 Replace

字典键值对替换，其他值保持不变

指定列替换
不指定列替换

10 分箱操作

pd.cut 常用来把一组数据分割成离散的区间

内部参数
在这里插入图片描述
x：被切分的类数组数据，一维，arrary/series
bins：被切割后的区间个数

int：当bins为一个ins型标量时，如bins=3，代表将x分为三个区间
sequence：指定区间如[0,59,70,80,100]，控制区间范围

right：bool型参数，默认为True。right=True，区间左开右闭；right=False，区间左闭右开
labels:给分割后的bins区间设置标签，labels的长度和划分后的区间长度相同，例如分割后有2个区间，则labels长度必须为2.