目前常分为Series和DataFrame两部分,且,Series是DataFrame的基础
首先了解其创建与使用
Series:
Series能够保存任何类型的数据(整数,字符串,浮点数,
# python对象)的一维标记数组,标签统称为索引
创建过程:
import pandas as pd
obj = pd.Series([4,7,-5,3])
obj
0 4
1 7
2 -5
3 3
dtype: int64
还可以自定义索引:
obj2 = pd.Series([4,7,-5,3],index=["a",'b','c','d'])
obj2
a 4
b 7
c -5
d 3
dtype: int64
常用的列表list,np.arange( ),dict(zip(plist,parr))
#构建方法
ser1 = pd.Series(plipst)
print(ser1)
ser2 = pd.Series(parr)
print(ser2)
ser3 = pd.Series(pdict)
ser3
print(ser3)
0 a
1 b
2 c
3 d
4 e
5 f
6 g
dtype: object
0 0
1 1
2 2
3 3
4 4
5 5
6 6
dtype: int32
a 0
b 1
c 2
d 3
e 4
f 5
g 6
dtype: int64
sdata = {'abc':300,'efg':200}
states = ['cad','abc']
obj4 = pd.Series(sdata, index=states)
print(obj4)
print(pd.isnull(obj4))#缺失值检测
#
print(obj4.index)
DataFrame
#DataFrame是一个表格型的数据结构,它含有一组有序的列,
# 每列可以说不同的值类型。
#DataFrame既有行索引,又有列索引,
#数据以一个或者多个二维快存放
data = {'state':['abc','abc','abc','cds','cds','cds'],
'year':[2002,2004,2006,2008,2010,2012],
'pop1':[1.5,1.7,1.9,3.6,2.6,3.2]}
frame = pd.DataFrame(data)##列数应该是不会超过50列
frame
state year pop1
0 abc 2002 1.5
1 abc 2004 1.7
2 abc 2006 1.9
3 cds 2008 3.6
4 cds 2010 2.6
5 cds 2012 3.2
frame的行为loc,列为columns
frame1 = pd.DataFrame(data,columns=['year','pop1','state'])
frame1.loc[3]
year 2008
pop1 3.6
state cds
Name: 3, dtype: object
列为
frame1 = pd.DataFrame(data,columns=['year','pop1','state'])
frame1.columns
Index(['year', 'pop1', 'state'], dtype='object')
还可以用索引表示列
frame1 = pd.DataFrame(data,columns=['year','pop1','state'])
frame1['year']
0 2002
1 2004
2 2006
3 2008
4 2010
5 2012
Name: year, dtype: int64
|