开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> Python知识库 -> [Kaggle Courses]数据清洗 Data Cleaning -> 正文阅读

[Python知识库][Kaggle Courses]数据清洗 Data Cleaning

文章目录

一、简介
二、数据鸟瞰和空值处理
- - 1. 数据鸟瞰
  - 2. 空值处理
三、缩放（Scaling）、归一化（MinMax）和标准化（Normalization）
- - 1. 缩放和归一化
  - 2. 标准化
四、时间转换
五、字符编码
六、不一致的数据输入

一、简介

数据清洗 是数据科学中的关键一步，它涉及到处理数据空值、删除重复信息、提供正确的数据格式等等。数据清洗往往发生在一个项目最开始的阶段，经常用到的工具是 pandas，还会用到 numpy 和 sklearn 。
通常通过以下方法引入 pandas 和 numpy ：

import pandas as pd
import numpy as np

二、数据鸟瞰和空值处理

1. 数据鸟瞰

通过以下方式查看dataframe中的一些例子:

df.head(n)#从顶部计数n
df.tail(n)#从底部计数n
df.sample(n)#可以进行随机抽样

通过以下方式查看dataframe的数值特征和摘要：

df.describe()
df.info()

2. 空值处理

通过以下方法查看dataframe中每列的的空值：

df.isnull().sum()

通过以下方法可以丢弃空值：

df.dropna(axis=0)
#如果axis = 0就丢弃有空值的行row
#如果axis = 1就丢弃有空值的列columns

通过以下方法填充空值：

df.fillna(
	value = None,#value可以指定所填充的值
	method = None,#method可以指定填充方法，具体有{'backfill', 'bfill', 'pad', 'ffill', None}
	axis = None#axis可以在哪个轴上填充值
)

三、缩放（Scaling）、归一化（MinMax）和标准化（Normalization）

1. 缩放和归一化

数据的缩放通过变换将数据映射到特定的区间上，从而使不同维度上的特征有一定比较性，以此适应不同算法（如SVM、KNN）的需求。 归一化 是一种特殊的缩放方式，它将数据放缩到区间 [0,1] ，公式为：
$x^* = \frac{x - min}{max-min}$
可以通过 sklearn 库中的MinMaxScaler实现归一化。

from sklearn.preprocessing import MinMaxScaler
mmx_sca = MinMaxScaler()
data_mmx = mmx_sca.fit_transform(data)

2. 标准化

标准化 可以将数据分布转换为正态分布，是数据更加符合统计假设。公式如下：
$x^* = \frac{x-\mu}{\sigma}$
其中 $\mu$ 为均值， $\sigma$ 为方差。
可以通过 sklearn 库中的StandardScaler实现归一化。

from sklearn.preprocessing import StandardScaler
std_sca = StandardScaler()
data = sta_sca.fit_transform(data)

四、时间转换

datetime 是python内置的处理时间的标准库。pandas 中有专门处理时间的函数 pd.to_datetime，将数据转换为时间类型（datatime类）。

import pandas as pd
import datetime
pd.to_dateime(series,format="%Y/%m/%d")

其中format是数据中时间的格式。也可以用 datetime 库中的 strptime 实现以上功能。

五、字符编码

字符编码主要为避免乱码的出现。python3中提供了方便的编码/解码函数。

before = binary.decode("big5-tw")#将binary按 big-tw编码
after = before.encode()#将before转为二进制码

六、不一致的数据输入

不一致的输入的意思是相同的内容却用了不同的形式表示，如 “Germany” 和 “germany”，如果将其放入输入中，函数将会将其视为两个类别。
可以使用 pandas 中的Series.str方法，这样你就可以对整列使用熟悉的 python3 字符串方法。
比如

df["column"].str.strip()#该方法去除column列中每一个字符串的首位空格

通过 unique() 方法创建集合从而达到去重的目的

df["column"].unique()

Python知识库最新文章

Python中String模块

【Python】 14-CVS文件操作

python的panda库读写文件

使用Nordic的nrf52840实现蓝牙DFU过程

【Python学习记录】numpy数组用法整理

Python学习笔记

python字符串和列表

python如何从txt文件中解析出有效的数据

Python编程从入门到实践自学/3.1-3.2

python变量

加:2021-09-03 11:50:39 更:2021-09-03 11:52:32

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/17 6:51:17-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码