| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> Python知识库 -> [Datawhale]动手学数据分析跟练Task01 -> 正文阅读 |
|
[Python知识库][Datawhale]动手学数据分析跟练Task01 |
目录 ?#1.2.2 任务二:观察表格前10行的数据和后15行的数据 #1.2.4 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False #1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv #1.4.1 任务一:pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子🌰[开放题] #1.4.2 任务二:根据上节课的方法载入"train.csv"文件? ?#1.4.3 任务三:查看DataFrame数据的每列的名称 #1.4.4任务四:查看"Cabin"这列的所有值[有多种方法]? ?#1.4.5 任务五:加载文件"test_1.csv",然后对比"train.csv",看看有哪些多出的列,然后将多出的列删除 ?#1.4.6 任务六: 将['PassengerId','Name','Age','Ticket']这几个列元素隐藏,只观察其他几个列元素 #1.5.1 任务一: 我们以"Age"为筛选条件,显示年龄在10岁以下的乘客信息 ?#1.5.2 任务二: 以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage #1.5.3 任务三:将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来 #1.5.4 任务四:使用loc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来 #1.5.5 任务五:使用iloc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来 #1.6.1 任务一:利用Pandas对示例数据进行排序,要求升序 ?1.数据载入及初步观察1.1载入数据#1.1.1任务一:导入numpy和pandas每次使用numpy和pandas都需要在之前进行重新导入。
#1.1.2任务二:载入数据此处用的绝对路径,但实际项目应用多采用相对路径? pd.read_csv中不加r会引起转义的报错,在路径前面加r,即保持字符原始值的意思。也可转换为双斜杠\\或正斜杠//
#1.1.3任务三:每1000行为一个数据模块,逐块读取
?#1.1.4 任务四:将表头改成中文,索引改为乘客ID?对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据
1.2 初步观察观察数据的整体结构方便数据处理,包括数据容量大小,数据格式,数据中是否含null值 #1.2.1任务一:观察数据的基本信息info方法:拉取数据容量信息,即包含数据名称,每列中数据条数,是否有空值,数据类型,注意方法的使用一定要指明对谁使用,此处若直接使用info()则会报错?
?#1.2.2 任务二:观察表格前10行的数据和后15行的数据
#1.2.4 任务三:判断数据是否为空,为空的地方返回True,其余地方返回False
1.3 保存数据#1.3.1 任务一:将你加载并做出改变的数据,在工作目录下保存为一个新文件train_chinese.csv
2.pandas基础Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。 Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据) 数据展现在我们面前的时候,我们所要做的第一步就是认识他;接下来要搞定的是了解字段含义以及初步观察数据。 1.4 知道你的数据叫什么开始前导入numpy和pandas
#1.4.1 任务一:pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子🌰[开放题]Series?是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)组成。 Series可以理解为一个一维的数组,只是index可以自己改动。类似于定长的有序字典,有Index和value。 Series的字符串表现形式为:索引在左边,值在右边。如果我们没有为数据指定索引,于是会自动创建一个0到N-1(N为数据的?度)的整数型索引。
?DataFrame?是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔型值)。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典(共同用一个索引)。 DataFrame是一个类似于表格的数据类型,DataFrame可以理解为一个二维数组,index有两个维度,可更改。 DataFrame参数: data (方框内的数据)? ? ?:numpy ndarray、dict、 DataFrame
案例一:
#1.4.2 任务二:根据上节课的方法载入"train.csv"文件?
?#1.4.3 任务三:查看DataFrame数据的每列的名称
#1.4.4任务四:查看"Cabin"这列的所有值[有多种方法]?方法一:
方
?#1.4.5 任务五:加载文件"test_1.csv",然后对比"train.csv",看看有哪些多出的列,然后将多出的列删除
参数说明: 因此,删除行列有两种方式:
?经过我们的观察发现一个测试集test_1.csv有一列a列是多余的,我们需要将这个多余的列删去
其余的删除方式:
?#1.4.6 任务六: 将['PassengerId','Name','Age','Ticket']这几个列元素隐藏,只观察其他几个列元素如果想要完全的删除你的数据结构,使用inplace=True,因为使用inplace就将原数据覆盖了,所以这里没有用
1.5 筛选的逻辑表格数据中,最重要的一个功能就是要具有可筛选的能力,选出我所需要的信息,丢弃无用的信息。
#1.5.1 任务一: 我们以"Age"为筛选条件,显示年龄在10岁以下的乘客信息
?#1.5.2 任务二: 以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage
#1.5.3 任务三:将midage的数据中第100行的"Pclass"和"Sex"的数据显示出来#1.5.4 任务四:使用loc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
#1.5.5 任务五:使用iloc方法将midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来
?3.探索性数据分析开始之前,导入numpy、pandas包和数据
1.6 了解你的数据吗?教材《Python for Data Analysis》第五章 #1.6.1 任务一:利用Pandas对示例数据进行排序,要求升序
pd.DataFrame():?创建一个DataFrame对象
?两个DataFrame相加后,会返回一个新的DataFrame,对应的行和列的值会相加,没有对应的会变成空值?NaN。 count : 样本数据大小 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 0:25:46- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |