IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 动手学数据分析-task01 -> 正文阅读

[Python知识库]动手学数据分析-task01

一、数据载入及初步观察

读取数据是进行数据分析的第一步,pandas中通常使用read_csv来进行数据读取:

  1. 直接读取
train_data = pd.read_csv('./train.csv')
  1. 逐块读取
train_data = pd.read_csv('./train.csv', chunksize=5)
  1. 修改列名
train_data.columns = ['乘客ID','是否幸存','乘客等级','乘客姓名','性别','年龄','堂兄弟/妹个数','父母与小孩个数','船票信息','票价','客舱','登船港口']
  1. 查看数据的基本信息
train_data.info()
  1. 保存数据
train_data.to_csv('./train_chinese1.csv')

二、Pandas基础

Pandas基于Numpy构建,是进行数据处理的一个十分重要的模块,它有两个主要的数据结构:Series和DataFrame。Series是一种类似于一维数组的对象。它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成,它的一个十分有用的作用是能够根据索引自动对齐数据。DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共同用一个索引)。

  1. 读取列名
df.columns
  1. 删除多余的列
del test_data['a']
test_data.head(3)
  1. 隐藏列元素
test_data.drop(['PassengerId','Name','Age','Ticket'],axis=1).head(3)
  1. 筛选
df1 = df.loc[df.Age<10]
midage = df.loc[(df.Age>10) & (df.Age<50)]
midage = midage.reset_index(drop=True)
df2 = midage.loc[[100],['Pclass','Sex']]
df3 = midage.loc[[100,105,108],['Pclass','Name','Sex']]
df4 = midage.iloc[[100,105,108],[2,3,4]]

三、探索性数据分析

日常生活中碰到的大部分数据都是类似于DataFrame表的形式,Pandas中提供了一些函数可以对DataFrame做一些基本的处理,有助于我们观察理解数据。

  1. 生成DataFrame
df1 = pd.DataFrame(np.arange(8).reshape((2,4)),index = [2,1],columns = ['d', 'a', 'b', 'c'])
  1. 排序
df3 = df1.sort_index()
df5 = df1.sort_index(axis=1,ascending=False)
df6 = df1.sort_values(by=['a','b'],ascending=False)
  1. 数据相加
df['家族人数'] = df['兄弟姐妹个数']+df['父母子女个数']
df_1 = df.sort_values(by='家族人数',ascending=False)
  1. 查看统计信息
df.describe()
  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-07-14 10:49:15  更:2021-07-14 10:50:32 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 0:48:45-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码