IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 大数据清洗4(pandas-DataFrame常用操作) -> 正文阅读

[Python知识库]大数据清洗4(pandas-DataFrame常用操作)

在这里插入图片描述

一、数据查看与描述

【首先讲述一下如何进入jupyter notebook,需要下载anaconda,在anaconda里面下载numpy以及pandas,具体操作:软件安装,然后打开控制页面,输入jupyter notebook,即可,复制所给链接就可以进入啦
在这里插入图片描述
】进入正题

df = pd.read_csv("D:\data\sales.txt",sep='\t',index_col=0) df.index = ["001","002","003","004","005","006","007"] df

在这里插入图片描述

df.shape #查看数据框的形状
df.head(2) #查看数据框的前几行,默认前5行
df.tail(3) #查看数据框的结尾几行,默认后5行
df.index #查看行索引
df.columns #查看列索引
 df.info()#查看数据框的详细信息

在这里插入图片描述

#进行简单的描述统计 
df.describe()

在这里插入图片描述

df.sort_index() #升序排序
df.sort_index(ascending=False) #降序排序

在这里插入图片描述

在这里插入图片描述

df.sort_values("销售业绩") #默认升序排序

在这里插入图片描述

df["工龄"] = [1,3,7,5,6,4,2]
df

在这里插入图片描述

df.sort_values(["销售业绩","工龄"]) #默认升序排序

在这里插入图片描述

df.sort_values(["销售业绩","工龄"],ascending=False) #降序排序
df.sort_values(["销售业绩","工龄"],ascending=[False,True]) #降序排序

二、缺失值的处理

df.iloc[[0,1,3,5],[1,2,4,6,9]] = np.nan #认为制造缺失值 df

在这里插入图片描述

1、查看缺失值

df.isnull()

在这里插入图片描述

df.isnull().sum() #查看缺失值数量

在这里插入图片描述

df.isnull().mean() #查看缺失值比例

在这里插入图片描述

df.shape
df.isnull().sum()/df.shape[0]

在这里插入图片描述

df.员工等级.value_counts()

在这里插入图片描述

2、填充缺失值

df.fillna(0)

在这里插入图片描述

df.fillna(df.mean())

在这里插入图片描述

df.fillna(method="bfill",limit=1) #limit限制填充次数

在这里插入图片描述

df.replace(np.nan,0)
df.replace(np.nan,df.median()) #用中位数进行填充

在这里插入图片描述

df.fillna(method="ffill")

在这里插入图片描述

df.replace(method="ffill")

3、删除缺失值

df.dropna() #默认按照行进行删除
df.dropna(axis=1)#按照列进行删除
df.dropna(how='all')#按照列进行删除

三、数据的合并

1、pd.concat()函数

#来自两个分公司的表 
df_1 = df.iloc[:4] 
df_2 = df.iloc[4:] 
df_1 df_2
pd.concat([df_1,df_2])

在这里插入图片描述

pd.concat([df_1,df_2],keys=["df_1","df_2"])

在这里插入图片描述

df_s = df.iloc[:,:7] #销售部门统计表 
df_h = df.iloc[:,[0,7,8,9,10]] #人力统计表 
df_s 
df_h
pd.concat([df_s,df_h],axis=1)

在这里插入图片描述

pd.concat([df_s,df_h],axis=1,keys=["df_s","df_h"],names=["来源表","索引"])

在这里插入图片描述

2、pd.merge()函数

pd.merge(df_s,df_h,on="员工姓名")
df_ss = df_s.copy()
df_ss.columns=["姓名","销售业绩","提成收入","基本工资","社保金额","创造收益","是否达标"]
df_ss

在这里插入图片描述

pd.merge(df_s,df_h)

在这里插入图片描述

pd.merge(df_ss,df_h,left_on = "姓名",right_on="员工姓名")

在这里插入图片描述

四、分组运算

gp1 = df.groupby("性别") 
len(gp1) #查看分组数 # 2
gp2 = df.groupby("员工等级") 
len(gp2) #3
gp1.size()

在这里插入图片描述

gp1.mean()

在这里插入图片描述

gp1["销售业绩"].mean()

在这里插入图片描述

gp3 = df.groupby(["性别","员工等级"]) 
len(gp3)   #5
gp4 = df.groupby(["性别","员工等级"],as_index=False)
gp4.mean()

在这里插入图片描述

gpp = gp2["销售业绩"].agg([np.mean,np.std]) 
gpp

在这里插入图片描述

gpp.rename(columns={"mean":"平均销售额","std":"标准差"})

在这里插入图片描述

gp2.agg({"销售业绩":np.mean,"提成收入":np.std})

在这里插入图片描述

五、数据透视表

pd.pivot_table(df,values="创造收益",index="员工状态")

在这里插入图片描述

pd.pivot_table(df,values="创造收益",index="员工状态",columns="员工等级") #默认聚合方式为求均值
pd.pivot_table(df,values="创造收益",index="员工状态",columns="员工等级",aggfunc=np.sum) #更改聚合方式为求和
pd.pivot_table(df,values=["创造收益","销售业绩"],index="员工状态",columns="员工等级",aggfunc=np.sum) #更改聚合方式为求和
pd.pivot_table(df,values=["创造收益","销售业绩"],index=["员工状态","性别"],columns="员工等级",aggfunc=np.sum) #更改聚合方式为求和
pd.pivot_table(df,values=["创造收益","销售业绩"],index=["员工状态","性别"],columns="员工等级",aggfunc=[np.sum,np.mean]) #更改聚合方式为求和
pd.pivot_table(df,values=["创造收益","销售业绩"],index=["员工状态","性别"],columns=["员工等级","是否达标"],aggfunc=[np.sum,np.mean]) #更改聚合方式为求 和

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-07-28 00:14:13  更:2021-07-28 00:14:15 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/8 1:20:10-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码