IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> Pandas -> 正文阅读

[Python知识库]Pandas

1 Series

结构: 索引 + 一维数组数值

1.1 创建Series

通过三种方式创建:pd.Series ( list /array / dict)

  1. 列表list
    在这里插入图片描述
  2. 数组array
    在这里插入图片描述
  3. 字典dict(键——索引,值——值)
    在这里插入图片描述

1.2 指定Series索引

pd.Series (list , index=[ ])
#Series默认索引为0 1 2 3…
#指定index ,索引长度要与值长度一致
在这里插入图片描述

1.3 获取Series数据

获取索引 .index
在这里插入图片描述
获取值 .values
在这里插入图片描述

1.4 Series运算

  1. 加减乘除
    直接对Series进行操作
    在这里插入图片描述

  2. 筛选

#筛选出大于3的数值
在这里插入图片描述

  1. Series之间的操作

**两个series进行操作,相同索引的值进行运算;若无相同索引,最终相加结果赋值为NaN。
在这里插入图片描述
在这里插入图片描述

2 DataFrame

表格型数据结构,含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等);
既有行索引也有列索引,可以被看作由series组成的字典(共用同一个索引)。

2.1 创建Dataframe

pd. DataFrame (array / dict)

  1. 通过 array

未指定行索引和列索引,默认0 1 2…
在这里插入图片描述

指定行列索引:pd. DataFrame (arr , columns =[ ] , index=[ ])
在这里插入图片描述

  1. 通过dict
    在这里插入图片描述

2.2 dataframe常见操作

  1. 查看数据
  • head()查看头数据 tail()查看尾数据
    在这里插入图片描述

  • info() 查看数据结构及储存信息
    在这里插入图片描述

describe() 查看数据按列的统计信息
在这里插入图片描述
#std代表标准差

  • mean()均值 median()中位数

在这里插入图片描述

  • index 行索引 columns 列索引
    在这里插入图片描述

  • T转置
    在这里插入图片描述

  1. 排序

sort_index(axis=0/1,ascending=True/False)

axis=0按行索引进行排序 axis=1按列索引进行排序
ascending=True(索引按从小到大排序)/False(索引按从大到小排序)
在这里插入图片描述

3 对比Series与Dataframe

DataFrame是由多个共用相同索引的Series组成,
Series没有列索引,DataFrame有列索引
可拆分、合并互相转化

3.1 Dataframe可拆分成多个Sereis

#通过相应列名
在这里插入图片描述

3.2 多个Sereis可组成Dataframe

在这里插入图片描述
#其中name,age,sex列为不同的Series.

3.3 其他:逐行读取数据

for index.value in df.iterrows():
在这里插入图片描述
读出具体数值
在这里插入图片描述

4 Pandas IO 操作(input/output文件的读与写)

url: ‘https://pandas.pydata.org/pandas- docs/ version/1.0.1 /users_guide /io.html’

4.1 读取数据

**查看当前目录下文件
!dir #Windows操作系统
在这里插入图片描述
!ls #Linux

  1. read_csv 读取csv、txt数据
    在这里插入图片描述
  2. read_excel 读取excel数据
    在这里插入图片描述

4.2 输出数据

  1. to_excel

输出一个excel文件
在这里插入图片描述
df.to_excel(‘ ’,header=T/F,index=T/F)
#header=True/False 输出/不输出标题
index=True/False 输出/不输出索引
在这里插入图片描述
在这里插入图片描述

  1. to_dict

输出一个字典
在这里插入图片描述

  1. to_csv

输出一个csv文件

  1. to_html

输出一个网页文件
在这里插入图片描述
在这里插入图片描述

5 loc与iloc数据选择

选择指定行列 loc/iloc

5.1 loc

  1. 选择列/行

loc [row,column]
#df.loc[ : , : ] 返回所有数据
#row 选择指定行数索引
df.loc[ : 3, : ] 返回前4行(0,1,2,3)
#column 选择指定的列名
df.loc[ : ,’列名’] 返回Series (1列)
df.loc[ : , [’列名’,’列名’]] 返回DataFrame (可多列)
#加中括号可返回多列DataFrame
在这里插入图片描述

  1. 筛选特定条件的DataFrame

选择出所有stockcode为71053的数据
在这里插入图片描述
选择出所有索引为偶数的数据 df .index%2==0
在这里插入图片描述

5.2 iloc

loc前面输入数字后面需要输入列名
iloc前后返回行列都需要输入数字,不能输入相应列名
#df.iloc[ :3 , : 3] 返回前3行前3列 (0,1,2) 与loc不同
在这里插入图片描述

6 pivot_table 数据透视表

#传入两个值要加中括号#传入两个值要加中括号

df.pivot_table( ) 内部参数默认

aggfunc 默认计算均值 ,可进行修改用于求和等
#aggfunc=[np.sum,len,np.mean]
可传入字典,指定列进行相关计算
在这里插入图片描述
fill_value 空值填充
margins 统计,求和由aggfunc决定

7 merge连接

内部参数
在这里插入图片描述
how:
‘inner’内连接(默认内连接) 根据on条件,列出左右两表共有数据
‘left’ 左连接 表1的完全集,而表2中匹配的则有值,没有匹配的则以null值取代
‘right’右连接 表2从完全集,而表1中匹配的则有值,没有匹配的则以null值取代
‘outer’全连接 所有值

on =两个dataframe相同的列名
left_on=第一个dataframe列名
right_on=第二个dataframe列名
Suffixes=(‘_x’,’_y’) 可传入指定后缀名 ,如果两个dataframe有相同列名,则第一个dataframe列名默认后缀+‘_x’,第二个列名默认后缀+‘_y’
在这里插入图片描述

  1. 内连接在这里插入图片描述

  2. 左连接在这里插入图片描述

  3. 右连接在这里插入图片描述

  4. 全连接在这里插入图片描述

8 groupby分组

g=data.groupby(‘分组字段’)

过程是将一个DataFrame按照groupby字段,化分成若干个分组DataFrame,分组会返回一个DataFrameGroupby对象
在这里插入图片描述
在这里插入图片描述

  • list() 查看DataFrameGroupby对象内部情况
    在这里插入图片描述

  • get_group() 查看一个组的数据情况 g.get_group()
    在这里插入图片描述

  • agg函数聚合 data.groupby( ).agg( )

相关函数:
min 、max、 sum、 mean、 median、
count 计数,不包含NaN值、
size 计数,包含NaN值、
nunique 计算去重后的个数。
在这里插入图片描述
groupby分组后直接.agg()进行聚合操作
在这里插入图片描述
在这里插入图片描述
**可通过传入字典的形式不同列进行不同操作,也可对一个列进行多个操作

9 map、replace操作

9.1 map

内部参数
在这里插入图片描述

  1. arg

字典键值对替换,若字典中没有找到series中对应的值,则赋值为NaN
在这里插入图片描述
在这里插入图片描述

  1. na_action

如果传入‘ignore’,则跳过对空值的操作
在这里插入图片描述

9.2 Replace

字典键值对替换,其他值保持不变

  1. 指定列替换
    在这里插入图片描述
    在这里插入图片描述
  2. 不指定列替换
    在这里插入图片描述

10 分箱操作

pd.cut 常用来把一组数据分割成离散的区间

内部参数
在这里插入图片描述
x:被切分的类数组数据,一维,arrary/series
bins:被切割后的区间个数

  1. int:当bins为一个ins型标量时,如bins=3,代表将x分为三个区间
    在这里插入图片描述
    在这里插入图片描述
  2. sequence:指定区间如[0,59,70,80,100],控制区间范围
    在这里插入图片描述
    right:bool型参数,默认为True。right=True,区间左开右闭;right=False,区间左闭右开
    labels:给分割后的bins区间设置标签,labels的长度和划分后的区间长度相同,例如分割后有2个区间,则labels长度必须为2.
    在这里插入图片描述

可将其转化为dataframe形式
在这里插入图片描述
在这里插入图片描述用groupby查看数据统计
在这里插入图片描述

11 apply自定义函数

可直接用于Series和DataFrame对象,进行数据聚合运算

apply( np.sqrt ) 开根号
在这里插入图片描述
在这里插入图片描述
apply ( pd.to_datetime ) 计算时间间隔
在这里插入图片描述
多列进行操作 采用自定义函数,axis=1
例:score>=600且interval<=15,打个标签 1,否则为0
在这里插入图片描述
#x为操作接收参数

lambda
在这里插入图片描述
在这里插入图片描述

12 其他常用函数

  1. rename 修改列名/索引
    在这里插入图片描述
    在这里插入图片描述
    令inplce=True,才会将其真正改变,否则只是改变了副本

  2. set_index 将DataFrame中的某一(多)个字段设置为索引
    在这里插入图片描述
    若将多个字段同时设置为索引需加中括号
    在这里插入图片描述

  3. reset_index 重置索引

参数:drop
drop=False 保留原索引 ,并作为DataFrame新字段 默认
drop=True 删除原索引
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  1. drop_duplicates 去重

参数:
subset 指定列作为主键,即在去重过程只针对指定列进行去重,保留指定列不同的字段;不指定列时去重完全重复的数据。
keep first/last 即在去重过程中保留第一行还是最后一行,默认first.
在这里插入图片描述
在这里插入图片描述

  1. drop 删除DataFrame指定列与索引
    在这里插入图片描述
  2. isin 常用于构建布尔索引,对DataFrame的数据条件筛选
    在这里插入图片描述
  3. value_counts 统计分类变量中每个类的数量

参数:normalize=True返回各类的占比,否则返回具体数量
在这里插入图片描述
在这里插入图片描述

  1. isna 判断DataFrame/Series是否为缺失值,是的话返回True。
    在这里插入图片描述
    返回出有缺失值的一行
    在这里插入图片描述
    any df.isna( ).any( ) 可判断某一列是否有缺失值,方便
    在这里插入图片描述
  2. dropna 删除含有缺失值的数据
    在这里插入图片描述
  3. fillna 填充缺失值

参数:
value
method
=pad/ffill 用上一个值填充;
=backfill/bfill 用下一个值填充。
在这里插入图片描述

  1. sort_values

按照某列(通过参数by实现)进行排序,对Series按数据列进行排序
在这里插入图片描述
#默认ascending=True,即由小到大排序;令ascending=False由大到小排序

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-08-23 16:38:21  更:2021-08-23 16:39:58 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/15 10:16:40-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码