IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Pandas数据分析教程(1)-Series和DataFrame -> 正文阅读

[人工智能]Pandas数据分析教程(1)-Series和DataFrame

前言

最近自己也在进行Python数据分析的学习,故在此写下本文作为笔记使用,本文是笔记系列的的第一篇,不定期更新。写的博客如有错误或者疏忽的地方,还望各位大佬指点,在此表示感激不尽。

Pandas是建立在Numpy模组matplotlib模组之上的,其代码风格与Numpy非常接近,但最大的不同是,Pandas针对的是表格型数据或异质型数据,而Numpy则更适合处理同质型数据,也就是数据类型相同的数据。

在开始之前,本文默认读者们都初步了解了Python的基础知识,有Numpy模块有一定了解。

正因为Pandas是在Numpy基础上实现,其核心数据结构与Numpy的ndarray十分相似。二者之间主要区别是:

🌎从数据结构上看:

  • numpy的核心数据结构是ndarray,支持任意维数的数组,但要求单个数组内所有数据是同质的,即类型必须相同;而pandas的核心数据结构是Series和Dataframe,仅支持一维和二维数据,但数据内部可以是异构数据,仅要求同列数据类型一致即可
  • numpy的数据结构仅支持数字索引,而pandas数据结构则同时支持数字索引标签索引

🌎从功能定位上看:

  • numpy虽然也支持字符串等其他数据类型,但仍然主要是用于数值计算,尤其是内部集成了大量矩阵计算模块,例如基本的矩阵运算、线性代数、fft、生成随机数等

  • pandas主要用于数据处理与分析,支持包括数据读写、数值计算、数据处理、数据分析和数据可视化全套流程操作


万物之始,引入pandas包:

import pandas as pd

Pandas有两个相当常用的数据结构(类):SeriesDataFram,本文主要学习这两类数据结构。

Series.

Series由一组数据以及一组与之相关的数据标签(即索引)组成,类似表格中的一个列(column),包含index和values两种属性,可以通过索引的方式选取Series中的单个或一组值。

Series创建

任何Python中的序列(sequence)都可以传入Series的生成函数。序列是是Python中最基本的数据结构,包括列表、元组、字符串、Unicode字符串、buffer对象和xrange对象。如下:

pd.Series(list,index=[ ])

list为传入序列index为指定索引默认为空。见下例:

>> obj = pd.Series([2,3,4,5])
>> obj
0    2
1    3
2    4
3    5
dtype: int64

Series是一种有序的数据类型,在这个例子中,索引在左,值在右。我们传入了一个列表(当然也可以传入数组(ndarray),字典,元组等),如果没有指定索引,索引值就从 0 开始,我们可以根据索引值读取数据。当然我们也可以自行指定索引,例如:

>> obj = pd.Series([2,3,4,5],index = ['a','b','c','a'])
>> obj
a    2
b    3
c    4
a    5
dtype: int64

🔺注意!由上面的例子可以看出,Series中的索引是可以重复的!并且哪怕指定了索引,我们仍可利用从0开始的下标索引去读取,如obj[1] = 3

Series属性

访问Series的几种属性,这些属性可以用赋值的方法改变:

In: obj.index    #获取索引
    obj.values   #获取值
    obj.dtype    #获取数据类型
    obj.name = 'text'  #给obj起名字
    obj.index.name = 'INDEX' #给obj的索引起名字

Out:Index(['a', 'b', 'a', 'd'], dtype='object')
    array([2, 3, 4, 5], dtype=int64)
    dtype('int64')

Pandas基于Numpy开发,故其中很多操作有共通之处。比如说除了使用下标索引来进行读取外,还可以利用布尔索引进行读取,同时可以进行科学计算。

#下标索引
>> obj[1:3]
b    3
a    4
dtype: int64

#布尔索引
>> obj[[True,False,False,True]]
a    2
d    5
dtype: int64
    
>> obj[obj>=3]
b    3
a    4
d    5
dtype: int64

DataFrame

DataFrame有点像Excel中的数据表,既有行索引又有列索引,每一列的值类型可以不同(数值,字符串等),是一种二维的数据类型。

DataFrame创建

pandas.DataFrame(data, index, columns, dtype, copy)

以下列例子说明DataFrame的创建函数:

data = [          #也可以传入二维的ndarray、序列等
    [1,2,3],
    [2,3,4],
    [3,1,0],
    [4,7,9]
]
#第二个参数为行索引,第三个为列索引
frame = pd.DataFrame(data,range(15),['a','b','c']) 
>> frame                             #当然未指定索引则默认从0开始
   a  b  c
1  1  2  3
2  2  3  4
3  3  1  0
4  4  7  9

获取DataFrame的属性:

In: frame.index    #获取索引
    frame.columns  #获取列名
    frame.values   #获取值
    frame.shape    #获取行列数
    frame.dtypes    #获取数据类型,注意为复数
    frame.name = 'text'  #给frame起名字
    frame.index.name = 'INDEX' #给frame的索引起名字

Out:RangeIndex(start=1, stop=5, step=1)
    Index(['a', 'b', 'c'], dtype='object')
    array([[1, 2, 3],
       [2, 3, 4],
       [3, 1, 0],
       [4, 7, 9]], dtype=int64)
    (4, 3)
    a    int64
    b    int64
    c    int64
    dtype: object

DataFrame操作

🔺注意!以下操作均是在数据的视图,而不是拷贝上进行的,因此对DataFrame的操作会改变数据内容

访问前n行:

>> frame.head(3)  #只能输入整数
   a  b  c
1  1  2  3
2  2  3  4
3  3  1  0

利用索引访问列:

>> frame[['b','c']]  #访问单列为frame['b']
   b  c
1  2  3
2  3  4
3  1  0
4  7  9
#或者
>> frame.b   #效果同上

修改一整列所有的值,若列名不存在,则生成一个新的列:

>> frame['d'] = (frame.c > 0)
frame
   a  b  c      d
1  1  2  3   True
2  2  3  4   True
3  3  1  0  False
4  4  7  9   True

删除某几行/列:

new_frame = frame.drop([2,3],axis = 0)  #原frame不变,返回新的数据,第二个参数为0代表操作行,为1代表操作列

删除某几列:

del frame['d']

删除某几行/列:

new_frame = frame.drop([2,3],axis = 0)  #原frame不变,返回新的数据,第二个参数为0代表操作行,为1代表操作列

删除某几列:

del frame['d']

下面是一些关于索引的操作:

在这里插入图片描述
下次应该会写Pandas的数据读取啥的,但更新又不知道是什么时候了hhh.

转载请标注作者和出处链接

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-25 10:35:14  更:2022-01-25 10:38:36 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/18 21:38:03-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码