| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 动手学数据分析之 2数据清洗及特征处理 -> 正文阅读 |
|
[人工智能]动手学数据分析之 2数据清洗及特征处理 |
? ? ? ?首先大致了解数据清洗。通常情况下我们拿到的数据是会存在缺少值或者有一些异常点等,需要经过一定的处理才能继续后边的分析或建模。所以拿到数据的第一步是进行数据清洗,将数据清洗成可以分析或建模的样子。 2.1 缺失值观察与处理我们拿到的数据经常会有很多缺失值,比如有些列存在NaN,那其他列还有没有缺失值,这些缺失值要怎么处理呢 2.1.1 缺失值观察 (1) 请查看每个特征缺失值个数
info()用于打印DataFrame的简要摘要,显示有关DataFrame的信息,包括索引的数据类型dtype和列的数据类型dtype,非空值的数量和内存使用情况。 info()方法最后输出的是每列不为空的数量。也就是说如果有某列数据的数量比实际的索引数量要少,说明该列存在缺少值。 注意info()和describe()的区别: describe()函数用于生成描述性统计信息。 描述性统计数据:数值类型的包括均值,标准差,最大值,最小值,分位数等;类别的包括个数,类别的数目,最高数量的类别及出现次数等;输出将根据提供的内容而有所不同。 方法二最后输出的是该列缺失值的数量。
2.1.2 对缺失值进行处理(1)缺失值处理的三种方法:
(2) 常见的缺失值补全方法:
(3) 举例对整张表的缺失值进行处理
dropna()方法-丢弃含空值的行、列 函数形式:dropna(axis=0, how='any', thresh=None, subset=None, inplace=False) 参数:
fillna()方法-填充空值 函数形式:fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs) 参数:
2.2 重复值观察与处理数据中会存在重复值,要怎样处理呢 2.2.1 查看数据中的重复值
2.2.2 对重复值进行处理? 以下是对整个行有重复值的清理的方法举例:
?2.2.3 将前面清洗的数据保存为csv格式
?2.3 特征观察与处理对特征进行一下观察,可以把特征大概分为两大类: 数值型特征一般可以直接用于模型的训练,但有时候为了模型的稳定性及鲁棒性会对连续变量进行离散化。文本型特征往往需要转换成数值型特征才能用于建模分析。 2.3.1 对年龄进行分箱(离散化)处理 (1) 分箱操作是什么? ? ? ?分箱操作就是将连续数据转换为分类对应物的过程。简单点说就是将不同的东西,按照特定的条件放到一个指定容器里,比如分水果,把绿色的放一个篮子里,红色一个篮子等等,这个篮子就是箱,而水果就是数据, 其中颜色就是条件 (2) 将连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示 (3) 将连续变量Age划分为(0,5] (5,15] (15,30] (30,50] (50,80]五个年龄段,并分别用类别变量12345表示 (4) 将连续变量Age按10% 30% 50% 70% 90%五个年龄段,并用分类变量12345表示 (5) 将上面的获得的数据分别进行保存,保存为csv格式
?2.3.2 对文本变量进行转换 (1) 查看文本变量名及种类
?2.3.3 从纯文本Name特征里提取出Titles的特征(所谓的Titles就是Mr,Miss,Mrs等)
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 0:30:31- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |