1、pandas概述
1.2概述
Pandas = Python Data Analysis Library;基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建;一个强大的Python数据分析的工具包;提供了大量能使我们快速便捷地处理数据的函数和方法
1.2数据处理流程
- 数据的读写
- 数据预处理(数据清洗)
- 数据分析
- 数据可视化
2、数据读写
2.1概述
- Pandas支持的数据源有:数据库、excel、文本文件、其他。
2.2数据的读写
①.读取泰坦尼克号数据集(下载连接:titanic3.xls)
import pandas as pd
data=pd.read_excel("titanic3.xls",sheet_name="titanic3")
print(data.head())
②.读取北京PM2.5的csv数据集(下载连接:BeijingPM2.5.csv)
import pandas as pd
pm25 = pd.read_csv("BeijingPM2.5.csv",sep=",",encoding="utf-8")
print(pm25.tail())
③.read_csv和read_table常用参数及说明  ④.写入文件to_csv  ⑤.写入到to_excel 将文件存储为Excel文件,可以使用to_excel方法。其语法格式如下。 DataFrame.to_excel(excel_writer=None, sheetname=None’, na_rep=”, header=True, index=True, index_label=None, mode=’w’, encoding=None)
to_csv方法的常用参数基本一致,区别之处在于没有sep参数,增加了一个sheetnames参数用来指定存储的Excel sheet的名称,默认为sheet1。
2.3数据库数据
2.3.1数据库数据存储
pandas提供了读取与存储关系型数据库数据的函数与方法;除了pandas库外,还需要使用SQLAlchemy库建立对应的数据库连接;SQLAlchemy配合相应数据库的Python连接工具(例如MySQL数据库需要安装mysqlclient或者pymysql库),使用create_engine函数,建立一个数据库连接。 
2.3.2数据库数据的读写
 
3、两种数据结构
3.1Series对象

3.2DataFrame数组对象
 
4、数据预处理
4.1数据的查找

4.2数据删除
 
4.3数据添加

4.4数据修改

4.5 数据合并

5、数据清洗
5.1重复值的检测与处理

5.2缺失值的检测

5.3缺失值的处理
5.3.1删除法处理缺失值

5.3.2替换法处理缺失值

5.4数据转换
5.4.1哑变量处理

|