IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 动手学数据分析之数据加载及探索性数据分析 -> 正文阅读

[Python知识库]动手学数据分析之数据加载及探索性数据分析

第一章第一节:数据载入及数据观察

基础知识:

1.导入库:

import pandas/numpy/os...

2.导入数据文件:

pd.read_csv("路径名")

3.大文件分块导入:

利用chunksize参数

4.观察数据:

df.info()

df.describe()

5.空数据返回

df.isnull()

任务:?

1.导入库:

import numpy as np
import pandas as pd

2.导入文件

df = pd.read_csv('D:/hands-on-data-analysis/第一单元项目集合/train.csv',  encoding='cp936')
df.head(3)

注:(1).encoding是通过下列命令得到的(解决编码错误的问题)

with open('D:/hands-on-data-analysis/第一单元项目集合/train.csv') as f:
    print(f)

(2).head函数用法:head(n)表示展示前n行,默认为5.

3.逐块读取:

有时候文件较大, 为了方便读取文件提高效率,常常分块读取文件。

利用chunksize参数:

chunker = pd.read_csv('D:/hands-on-data-analysis/第一单元项目集合/train.csv', chunksize = 1000)

如上所示为1000行1000行的读

4.修改索引:

df = pd.read_csv('D:/hands-on-data-analysis/第一单元项目集合/train.csv', names = ['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'], header = 0)

这种方法是在导入文件时同时修改, 另一种方法是先导入, 再修改,此处不赘述。

5.观察数据:

df.info()

df.describe()

?

观察前n行:

df.head(6)

观察后n行

df.tail()

数据空的地方返回True,其余地方返回False?

df.isnull()

?6.将修改后的文件保存:?

df.to_csv('D:/hands-on-data-analysis/第一单元项目集合/train_chinese1.csv')

第一章第二节 :pandas基础

基础知识:

1.series和dataframe的区别:

?series相当于数组,而dataframe相当于表格。

2.查看DataFrame数据的每列的名称:

df.columns()

3.查看列名为xxx的所有行:

df['xxx']

4.删除指定行:

del df['xxx']或者df.drop('xxx', axis = 1)

5.筛选有用信息:

df[不啦不啦]

1.设置series:

score = {'lifei':90, 'wangming':98, 'lihui':67, 'liuwei':78}
e_1 = pd.Series(score)
e_1

?

2.设置dataframe:

information = {'student':['lifei', 'lifei', 'lifei','wangm', 'wangm'],
              'year':[2018, 2019, 2010, 2019, 2020],
              'weight':[120, 110, 115, 198, 200]}
e_2 = pd.DataFrame(information)
e_2

?

series和dataframe的区别:

?series相当于数组,而dataframe相当于表格。

3.查看DataFrame数据的每列的名称

df.columns

?

?

4.查看列名为Cabin的所有行:

df['Cabin']
df.Cabin

??

5.删除指定列:

df_test = pd.read_csv('D:/hands-on-data-analysis/第一单元项目集合/test_1.csv', encoding='cp936')
del df_test['a']
df_test.head(3)

或者使用drop函数:

df_test.drop('a', axis = 1)
df.head(3)

结果显示一致:

同样地, 因为删除某一列不会影响原数据, 所以可以利用删除某几列来研究剩余几列地特点, 即比如当我们需要研究除['PassengerId','Name','Age','Ticket']这几个列以外的其他几个列元素时, 可以把这几列删除:

df.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)

?

6. 筛选有用信息,丢弃无用信息

例如筛选出年龄小于10的数据:

df[df['Age']<10]

?

midage = df[(df['Age']>10)&(df['Age']<50)]
midage.head(3)

?loc用法例:

midage.loc[[100,105,108],['Pclass','Name','Sex']] 

iloc用法例:

midage.iloc[[100,105,108],[2,3,4]]

loc和iloc用法区别很明显:loc是通过名称引用, iloc是通过列数引用。

第一章第三节:探索性数据分析

基础知识:

对某一列进行升序或降序排列:

data.sort_values(by = '', ascending = True/False)

根据行索引进行升序或降序排列:

data.sort_index(ascending = True/False)

根据列索引进行升序或降序排列:

data.sort_index(axis = 1, ascending = True/False)

泰坦尼克号数据集实战:

?已尝试完,很有趣,略。

?

  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-08-18 12:39:58  更:2021-08-18 12:41:36 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年6日历 -2024/6/1 17:50:28-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码