| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> 动手学数据分析Task03 -> 正文阅读 |
|
[Python知识库]动手学数据分析Task03 |
数据重构数据重构依旧属于数据理解(准备)的范围。
数据的合并任务一:将data文件夹里面的所有数据都载入,观察数据的之间的关系
观察了一下这四个表格的数据,大致是之前的总数据train的四个角落分布。 任务二:使用concat方法:将数据train-left-up.csv和train-right-up.csv横向合并为一张表,并保存这张表为result_up 参数含义:
任务三:使用concat方法:将train-left-down和train-right-down横向合并为一张表,并保存这张表为result_down。然后将上边的result_up和result_down纵向合并为result。
任务四:使用DataFrame自带的方法join方法和append:完成任务二和任务三的任务 dataframe内置了join方法是一种快速合并的方法。它默认以index作为对齐的列。(理解为左右连接) 官方文档中是这样描述append的用途的“在表尾中添加新行,并且返回添加后的数据对象,如果添加的行中存在原数据中没有的列,那么将给原数据添加一个新列,并用nan补值。”
1.other: 是要添加的数据,append很不挑食,这个other可以是dataframe,dict,Seris,list等等。 作者:躺在稻田里的小白菜
任务五:使用Panads的merge方法和DataFrame的append方法:完成任务二和任务三的任务 学习资料参考:[Python3]pandas.merge用法详解 left_index和right_index用来将行索引用作连接键。
【思考】对比merge、join以及concat的方法的不同以及相同。思考一下在任务四和任务五的情况下,为什么都要求使用DataFrame的append方法,如何只要求使用merge或者join可不可以完成任务四和任务五呢? 任务六:完成的数据保存为result.csv
换一种角度看数据任务一:将我们的数据变为Series类型的数据 stack()即“堆叠”,作用是将列旋转到行;
数据聚合与运算任务一:通过教材《Python for Data Analysis》P303、Google or anything来学习了解GroupBy机制 学习心得:GroupBy机制主要用来分组,可以根据单个或多个标签来进行分组,分组的标签也可以是数组;再进行各种操作并将结果组合。GroupBy经常只需一行代码,就可以计算每组的和,均值,计数,最小值以及其他累计值。它返回一个DataFrameGroupby对象,你可以将它看成是一个特殊的DataFrame对象,里面隐藏着若干组数据。 GroupBy可以分解为三个步骤: 任务二:计算泰坦尼克号男性与女性的平均票价
Sex 任务三:统计泰坦尼克号中男女的存活人数
Sex 任务四:计算客舱不同等级的存活人数
Pclass 【思考】从数据分析的角度,上面的统计结果可以得出哪些结论 agg聚合操作 1、对单个列进行聚合操作
任务五:统计在不同等级的票中的不同年龄的船票花费的平均值
Pclass Age 任务六:将任务二和任务三的数据合并,并保存到sex_fare_survived.csv
任务七:得出不同年龄的总的存活人数,然后找出存活人数的最高的年龄,最后计算存活人数最高的存活率(存活人数/总人数)
sum of person:342 总结这次的任务主要还是对数据的准备,其中GroupBy机制在我了解上是比较顺手的,但是对这一方面的了解还不够透彻,还得继续学习在这个机制,对将来数据分析上会有很大用处。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/25 15:09:38- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |