前言
最近自己也在进行Python数据分析的学习,故在此写下本文作为笔记使用,本文是笔记系列的的第一篇,不定期更新。写的博客如有错误或者疏忽的地方,还望各位大佬指点,在此表示感激不尽。
Pandas是建立在Numpy模组 和matplotlib模组 之上的,其代码风格与Numpy非常接近,但最大的不同是,Pandas针对的是表格型数据或异质型数据,而Numpy则更适合处理同质型数据,也就是数据类型相同的数据。
在开始之前,本文默认读者们都初步了解了Python的基础知识,有Numpy模块 有一定了解。
正因为Pandas是在Numpy基础上实现,其核心数据结构与Numpy的ndarray十分相似。二者之间主要区别是:
🌎从数据结构上看:
- numpy的核心数据结构是ndarray,支持任意维数的数组,但要求单个数组内所有数据是同质的,即类型必须相同;而pandas的核心数据结构是Series和Dataframe,仅支持一维和二维数据,但数据内部可以是异构数据,仅要求同列数据类型一致即可
- numpy的数据结构仅支持数字索引,而pandas数据结构则同时支持数字索引和标签索引
🌎从功能定位上看:
万物之始,引入pandas包:
import pandas as pd
Pandas有两个相当常用的数据结构(类):Series和DataFram,本文主要学习这两类数据结构。
Series.
Series由一组数据以及一组与之相关的数据标签(即索引)组成,类似表格中的一个列(column),包含index和values两种属性,可以通过索引的方式选取Series中的单个或一组值。
Series创建
任何Python中的序列(sequence)都可以传入Series的生成函数。序列是是Python中最基本的数据结构,包括列表、元组、字符串、Unicode字符串、buffer对象和xrange对象。如下:
pd.Series(list,index=[ ])
list为传入序列,index为指定索引,默认为空。见下例:
>> obj = pd.Series([2,3,4,5])
>> obj
0 2
1 3
2 4
3 5
dtype: int64
Series是一种有序的数据类型,在这个例子中,索引在左,值在右。我们传入了一个列表(当然也可以传入数组(ndarray),字典,元组等),如果没有指定索引,索引值就从 0 开始,我们可以根据索引值读取数据。当然我们也可以自行指定索引,例如:
>> obj = pd.Series([2,3,4,5],index = ['a','b','c','a'])
>> obj
a 2
b 3
c 4
a 5
dtype: int64
🔺注意!由上面的例子可以看出,Series中的索引是可以重复的!并且哪怕指定了索引,我们仍可利用从0开始的下标索引去读取,如obj[1] = 3
Series属性
访问Series的几种属性,这些属性可以用赋值的方法改变:
In: obj.index
obj.values
obj.dtype
obj.name = 'text'
obj.index.name = 'INDEX'
Out:Index(['a', 'b', 'a', 'd'], dtype='object')
array([2, 3, 4, 5], dtype=int64)
dtype('int64')
Pandas基于Numpy开发,故其中很多操作有共通之处。比如说除了使用下标索引来进行读取外,还可以利用布尔索引进行读取,同时可以进行科学计算。
>> obj[1:3]
b 3
a 4
dtype: int64
>> obj[[True,False,False,True]]
a 2
d 5
dtype: int64
>> obj[obj>=3]
b 3
a 4
d 5
dtype: int64
DataFrame
DataFrame有点像Excel中的数据表,既有行索引又有列索引,每一列的值类型可以不同(数值,字符串等),是一种二维的数据类型。
DataFrame创建
pandas.DataFrame(data, index, columns, dtype, copy)
以下列例子说明DataFrame的创建函数:
data = [
[1,2,3],
[2,3,4],
[3,1,0],
[4,7,9]
]
frame = pd.DataFrame(data,range(1,5),['a','b','c'])
>> frame
a b c
1 1 2 3
2 2 3 4
3 3 1 0
4 4 7 9
获取DataFrame的属性:
In: frame.index
frame.columns
frame.values
frame.shape
frame.dtypes
frame.name = 'text'
frame.index.name = 'INDEX'
Out:RangeIndex(start=1, stop=5, step=1)
Index(['a', 'b', 'c'], dtype='object')
array([[1, 2, 3],
[2, 3, 4],
[3, 1, 0],
[4, 7, 9]], dtype=int64)
(4, 3)
a int64
b int64
c int64
dtype: object
DataFrame操作
🔺注意!以下操作均是在数据的视图,而不是拷贝上进行的,因此对DataFrame的操作会改变数据内容
访问前n行:
>> frame.head(3)
a b c
1 1 2 3
2 2 3 4
3 3 1 0
利用索引访问列:
>> frame[['b','c']]
b c
1 2 3
2 3 4
3 1 0
4 7 9
>> frame.b
修改一整列所有的值,若列名不存在,则生成一个新的列:
>> frame['d'] = (frame.c > 0)
frame
a b c d
1 1 2 3 True
2 2 3 4 True
3 3 1 0 False
4 4 7 9 True
删除某几行/列:
new_frame = frame.drop([2,3],axis = 0)
删除某几列:
del frame['d']
删除某几行/列:
new_frame = frame.drop([2,3],axis = 0)
删除某几列:
del frame['d']
下面是一些关于索引的操作:
下次应该会写Pandas的数据读取啥的,但更新又不知道是什么时候了hhh.
转载请标注作者和出处链接
|