一、Pandas简介
pandas 是基于Numpy,为解决数据分析任务而创建的。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。具有数据分析,数据挖掘,数据清洗功能。正因它的出现,让Python语言也成为使用最广泛而且强大的数据分析环境之一。
安装方法:
pip install pandas
引用方法:
import pandas as pd
二、pandas的数据结构
Series | 一维数组 | Time- Series | 以时间为索引的Series | DataFrame | 二维的表格型数据结构 | Panel | 三维的数组 |
注:pandas中主要的数据结构是Series和DataFrame这两种
Series
DateFrame
三、缺失数据处理
dropna() | 过滤掉值为NaN的行 | fillna() | 填充缺失数据 | isnull() | 返回布尔数组,缺失值对应为 | Truenotnull() | 返回布尔数组,缺失值对应为False |
四,一些索引方法和属性
append | 将额外的索引对象粘贴到原索引后,产生—个新的索引 | difference | 计算两个索引的差集 | intersection | 计算两个索引的交集 | union | 计算两个索引的并集 | isin | 计算表示每—个值是否在传值容器中的布尔数组 | delete | 将位置i的元素删除,并产生新的索引 | drop | 根据传参删除指定索引值,并产生新的索引 | insert | 在位置i插入元素,并产生新的索引 | is_monotonic | 如果索引顺序递增则返回True | is_unique | 如果索引序列唯—则返回True | unique | 计算索引的唯—值序列 |
|