如果用 python 的列表和字典来作比较, 那么可以说 Numpy 是列表形式的,没有数值标签,而 Pandas 就是字典形式。Pandas是基于Numpy构建的,让Numpy为中心的应用变得更加简单。
数据结构
要使用pandas,首先需要了解主要两个数据结构:Series和DataFrame。
Series
import pandas as pd
import numpy as np
s = pd.Series([1,3,6,np.nan,44,1])
print(s);
?Series 的字符串表现形式为:索引在左边,值在右边。由于我们没有为数据指定索引。于是会自动创建一个0到N-1(N为长度)的整数型索引。
DataFrame
DataFrame 是一个表格型的数据结构,它包含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔值等)。DataFrame 既有行索引也有列索引, 它可以被看做由Series 组成的大字典。
dates = pd.date_range('20160101',periods=6)
df = pd.DataFrame(np.random.randn(6,4),index=dates,columns=['a','b','c','d'])
print(df)
?
?如果未对DataFrame设置索引,默认从0开始
print(df)
print(df.dtypes) #获取数据中的类型
print(df.index) #获取列的序号
df.columns #数据名称
df.values #df所有的值
df.describe #数据的总结
print(df.sort_index(axis=1, ascending=False))#对数据的 index 进行排序并输出
print(df.sort_values(by='B'))#数据值排序输出
其他操作见Pandas对象的方法。
|