数据清洗
前言
近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,还是机器学习、人工智能、都离不开数据这个主题。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。
一、数据清洗的背景
1.1、数据质量概述
? ?数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。
?数据质量的显著特点:
- “业务需求”会随时间变化,数据质量也会随时间发生变化
- 数据质量可以借助信息系统度量,但独立于信息系统的存在。
- 数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的小时而消失。
1.2、数据质量的评价指标
?数据质量的评价指标主要包括数据的准确性、完整性、简洁性和适用性,其中数据的准确性、完整性和简洁性是为了保证数据的适用性。
1.3、数据质量的问题分类
数据质量的问题可以分为两类:一类是基于数据源的“脏”数据分类;另一类是基于清洗方式的“脏”数据分类。
1.基于数据源的“脏”数据分类
(1)单数据源问题
单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度
(2)多数据源问题
多数据源中存在的模式相关的质量问题主要是名字冲突和结构冲突
2.基于清洗方式的“脏”数据分类。
(1)独立性“脏”数据
独立性“脏”数据 可通过记录或本身属性检验出是否包含“脏数据”,不需要依赖其他记录或属性检测。
(2)依赖性“脏数据”
依赖性“脏数据”主要包括缺失数据和重复数据等“脏”数据。
二、数据清洗的原理
数据清洗是利用相关技术将“脏”数据转换为满足质量要求的数据
三、数据清洗的步骤
数据清洗流程一共分为五个步骤
- 数据分析
- 定义数据清洗的策略和规则
- 搜寻并确定错误实例
- 纠正发现的错误
(1)从原始数据源的属性字段中抽取值
(2)确认并改正
(3)标准化
? ? 5.干净数据回流
四、数据清洗的策略
一般数据的清洗策略
- 手工清洗策略吗,即通过人工直接修改“脏”数据
- 自动清洗策略,即通过编写专门的应用程序检测并修改“脏”数据
- 特定应用领域的清洗策略,即根据概率统计学原理检测并修改数值异常的记录
- 与特定领域无关的清洗策略,即根据相关算法检测并删除重复记录。
混合数据的清洗策略
混合数据的清洗策略主要以自动清洗为主
五、常见的数据清洗方法
1、缺失值的清洗
缺失值的清洗方法主要分为两类,即忽略缺失值和填充缺失值数据
(1)忽略缺失值数据方法是通过直接删除属性或实例忽略缺失值的数据
(2)填充缺失值数据值数据方法是使用最接近缺失值的值代替缺失的值
2、重复值的清洗
目前清洗重复值的基本思想是“排序和合并”,主要方法有相似度计算和基于基本近邻排序算法等方法。
(1)相似度计算是通过计算记录的个别属性的相似度,然后考虑每个属性的不同权重值,进行加权平均后得到记录的相似度,若两个记录相似度超过某一个阈值,则认为两条记录匹配,否则认为这两条记录指向不同的实体。
(2)基于基本近邻排序算法的核心思想是为了减少记录的比较次数,在按关键字排序后的数据集上移动一个大小固定的窗口,通过检测窗口内的记录判定它们是否相似,从而确定并处理重复记录。
3、错误值的清洗
错误值的清洗方法主要包括使用统计分析的方法识别可能的错误值(如偏差分析、识别不遵守分布或回归方程的值)、使用简单规则库(即常识性规则、业务特定规则等)检测出错误值、使用不同属性间的约束以及使用外部的数据等方法检测和处理错误值。
(注:以上文章来自《数据清洗》‘黑马程序员’阅读笔记)。
???????
|