IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Python数据分析:缺失值检测与处理 -> 正文阅读

[人工智能]Python数据分析:缺失值检测与处理

在实际的数据处理中,缺失值是普遍存在的,如何使用 Python 检测和处理缺失值,就是本文要讲的主要内容。

检测缺失值

我们先创建一个带有缺失值的数据框(DataFrame)。

import pandas as pd

df = pd.DataFrame(
    {'A': [None, 2, None, 4],
     'B': [10, None, None, 40], 
     'C': [100, 200, None, 400],
     'D': [None, 2000, 3000, None]})
df

数值类缺失值在 Pandas 中被显示为 NaN (Not A Number)。下面看看如何判断哪些列或者哪些行有缺失值。

1.info()

info() 返回的结果中,我们只需要观察每一列对应的 Non-Null Count 的数量是否等于 RangeIndex(索引范围) 即可。

2.isnull()

isnull() 返回一个与原 DataFrame 大小(列数,行数)相同的数据框,行列对应的数据代表着该位置是否为缺失值。

df.isnull()


使用 sum() 来检测每列中的缺失值的数量。

df.isnull().sum()


通过 .TDataFrame 转置,获取检测每行中缺失值的数量。

df.isnull().T.sum()

缺失值处理

删除缺失值

如果出现缺失值的行/列重要性不大的话,可以直接使用 dropna() 删除带有缺失值的行/列。

df.dropna(axis=0,
          how='any',
          thresh=None,
          subset=None,
          inplace=False)

参数含义

  • axis:控制行列的参数,0 行,1 列。
  • how:any,如果有 NaN,删除该行或列;all,如果所有值都是 NaN,删除该行或列。
  • thresh:指定 NaN 的数量,当 NaN 数量达到才删除。
  • subset:要考虑的数据范围,如:删除缺失行,就用subset指定参考的列,默认是所有列。
  • inplace:是否修改原数据,True直接修改原数据,返回 None,False则返回处理后的数据框。

指定 axis = 1,如果列中有缺失值,则删除该列。

df.dropna(axis=1, how='any')
由于每列都有缺失值,所以只剩索引。

指定 axis = 0(默认),如果行中有缺失值,则删除该行。

df.dropna(axis=0, how='any')

以 ABC 列为参照,删除这三列都是缺失值的行。

df.dropna(axis=0, subset=['A', 'B', 'C'], how='all')

保留至少有3个非NaN值的行。

df.dropna(axis=0, thresh=3)

填补缺失值

另一种常见的缺失值处理方式就是使用 fillna() 填补缺失值。

df.fillna(value=None,
          method=None,
          axis=0,
          inplace=False,
          limit=None)

1. 直接指定填充值

df.fillna(666)


2.用缺失值前/后的值填充

按前一个值填充

method 值为 ffillpad时,按前一个值进行填充。

axis = 0,用缺失值同一列的上一个值填充,如果缺失值在第一行则不填充。

axis = 1,用缺失值同一行的上一个值填充,如果缺失值在第一列则不填充。

df.fillna(axis=0, method='pad')


按后一个值填充

method 值为 backfillbfill时,按后一个值进行填充。

axis = 0,用缺失值同一列的下一个值填充,如果缺失值在最后一行则不填充。

axis = 1,用缺失值同一行的下一个值填充,如果缺失值在最后一列则不填充。

df.fillna(axis=0, method='bfill')

指定相应的方法来填充

df.fillna(df.mean())

limit限制填充次数

在ABCD列上,每列只填充第一个空值。

df.fillna(value=666, axis=1, limit=1)

👇🏻 关注小卡片,领取千套简历模板,优质电子书 👇🏻
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-11-15 15:52:28  更:2021-11-15 15:52:30 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 6:39:41-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码