开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> B站14天数据分析笔记5次课Pandas -> 正文阅读

[人工智能]B站14天数据分析笔记5次课Pandas

数据的重塑和轴向旋转

行列层次化索引
Series转DataFrame
索引交换层次
每个索引项都是个元组按正常索引序列访问既可
数据旋转/行列转化转置

import numpy as np
import pandas as pd
df=pd.read_excel("movie_data2.xlsx")
df[:5]

在这里插入图片描述

层次化索引

s=pd.Series(np.arange(1,10),index=[['a','a','a','b','b','c','c','d','d'],[1,2,3,1,2,3,1,2,3]])
s

在这里插入图片描述

s.index

在这里插入图片描述

Series转DataFrame

不堆叠unstack 将series 变成dataframe

s.unstack().stack()

在这里插入图片描述

对Dataframe 行列层次化索引

data=pd.DataFrame(np.arange(12).reshape(4,3),index=[['a','a','b','b'],[1,2,1,2]],columns=[['A','A','B'],['Z','X','C']])
print(data)

在这里插入图片描述

索引交换层次

data.index.names=['row2','row1']
data.columns.names=['col1','col2']
data

在这里插入图片描述

data.swaplevel('row1','row2')
data

在这里插入图片描述

set_index把列变成索引 reset_index把索引变成列

df=df.set_index(['产地','年代'])
df

在这里插入图片描述

每个索引项都是个元组按正常索引序列访问既可

df.index[0]

(‘美国’, 1994)

行标签索引行数据两边闭区间以年代为索引

df.loc['美国']

在这里插入图片描述

取消层次化索引


df=df.reset_index()

在这里插入图片描述

数据旋转

在这里插入图片描述

分组与聚合 (groupby/数据透视表格pivot_table)

group=df.groupby(df['产地'])
type(group)
group.sum()

在这里插入图片描述

使用聚合函数

df['评分'].groupby(df['年代']).mean()

在这里插入图片描述

groupby多个分组变量

df.groupby([df['产地'],df['年代']]).mean()

在这里插入图片描述

#每个地区 每一年的评分的均值
group=df['评分'].groupby([df['产地'],df['年代']])
mean=group.mean()
mean

在这里插入图片描述

mean.unstack().T#转为dataframe

在这里插入图片描述

离散化,分组/区间化处理

python 之 .cut函数:
区间化的定义 x数组 bins区间/序列分组依据 right右端点 include_lowest左端点 labels 定义的名称等级
pd.cut(x,bins,right = True,labels = None,retbins=False,precision = 3,include_lowest = False)

df['评分等级'] = pd.cut(df['评分'],[0,3,5,7,9,10],labels = ['E','D','C','B','A'])
df.head(10)

在这里插入图片描述
根据百分数的分布来切割区间投票人数的排序分成五份排名每20%作为一个等级

bins = np.percentile(df['投票人数'],[0,20,40,60,80,100])
df['热门程度'] = pd.cut(df['投票人数'],bins,labels = ['E','D','C','B','A'])
df

在这里插入图片描述

合并数据集的三种方法

.append

将数据集拆分成多个再进行合并

df_usa = df[df.产地=='美国']
df_cn = df[df.产地=='中国大陆']
df_cn.append(df_usa)

pd.merge

python 之pd.merge函数
pd.merge(left,right,how=‘inner’,on=None,left_on = None)
left:左边的对象
right:右边对象
on:要加入的列:交集连接键左连接右连接内连接
left_on:如果不同则自己指定
right_on:
sort:按照连接件排序
suffixes:前缀重复键自定义后缀

df1 = df.loc[:5]
df1
df2 = df.loc[:5][['名字','产地']]
df2['票房']  = [123344,23454,343543,435,222,555]
df2

在这里插入图片描述

将数据表格打乱后重新设置索引

df2 = df2.sample(frac = 1)
df2

在这里插入图片描述

df2.index = range(len(df2))
df2

在这里插入图片描述
合并

pd.merge(df1,df2,how = "inner",on = '名字',)

在这里插入图片描述

pd.concat

多个数据表进行某一维度的拼接
在这里插入图片描述

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-09-24 10:34:02 更:2021-09-24 10:35:32

360图书馆购物三丰科技阅读网日历万年历 2026年5日历

-2026/5/3 2:45:20-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码

[人工智能]B站14天数据分析笔记5次课Pandas

数据的重塑和轴向旋转

层次化索引

Series转DataFrame

对Dataframe 行列层次化索引

索引交换层次

set_index把列变成索引 reset_index把索引变成列

每个索引项都是个元组 按正常索引序列访问既可

取消层次化索引

数据旋转

分组与聚合 (groupby/数据透视表格pivot_table)

使用聚合函数

groupby多个分组变量

离散化,分组/区间化处理

合并数据集的三种方法

.append

pd.merge

将数据表格打乱后重新设置索引

pd.concat

每个索引项都是个元组按正常索引序列访问既可