IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 2021-09-11 -> 正文阅读

[人工智能]2021-09-11

数据清洗


前言

近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,还是机器学习、人工智能、都离不开数据这个主题。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。


一、数据清洗的背景

1.1、数据质量概述

? ?数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。

?数据质量的显著特点:

  • “业务需求”会随时间变化,数据质量也会随时间发生变化
  • 数据质量可以借助信息系统度量,但独立于信息系统的存在。
  • 数据质量存在于数据的整个生命周期,随着数据的产生而产生,随着数据的小时而消失。

1.2、数据质量的评价指标

?数据质量的评价指标主要包括数据的准确性、完整性、简洁性和适用性,其中数据的准确性、完整性和简洁性是为了保证数据的适用性。

1.3、数据质量的问题分类

数据质量的问题可以分为两类:一类是基于数据源的“脏”数据分类;另一类是基于清洗方式的“脏”数据分类。

1.基于数据源的“脏”数据分类

(1)单数据源问题

单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度

(2)多数据源问题

多数据源中存在的模式相关的质量问题主要是名字冲突和结构冲突

2.基于清洗方式的“脏”数据分类。

(1)独立性“脏”数据

独立性“脏”数据 可通过记录或本身属性检验出是否包含“脏数据”,不需要依赖其他记录或属性检测。

(2)依赖性“脏数据”

依赖性“脏数据”主要包括缺失数据和重复数据等“脏”数据。

二、数据清洗的原理

数据清洗是利用相关技术将“脏”数据转换为满足质量要求的数据

三、数据清洗的步骤

数据清洗流程一共分为五个步骤

  1. 数据分析
  2. 定义数据清洗的策略和规则
  3. 搜寻并确定错误实例
  4. 纠正发现的错误

(1)从原始数据源的属性字段中抽取值

(2)确认并改正

(3)标准化

? ? 5.干净数据回流

四、数据清洗的策略

一般数据的清洗策略

  • 手工清洗策略吗,即通过人工直接修改“脏”数据
  • 自动清洗策略,即通过编写专门的应用程序检测并修改“脏”数据
  • 特定应用领域的清洗策略,即根据概率统计学原理检测并修改数值异常的记录
  • 与特定领域无关的清洗策略,即根据相关算法检测并删除重复记录。

混合数据的清洗策略

混合数据的清洗策略主要以自动清洗为主

五、常见的数据清洗方法

1、缺失值的清洗

缺失值的清洗方法主要分为两类,即忽略缺失值和填充缺失值数据

(1)忽略缺失值数据方法是通过直接删除属性或实例忽略缺失值的数据

(2)填充缺失值数据值数据方法是使用最接近缺失值的值代替缺失的值

2、重复值的清洗

目前清洗重复值的基本思想是“排序和合并”,主要方法有相似度计算和基于基本近邻排序算法等方法。

(1)相似度计算是通过计算记录的个别属性的相似度,然后考虑每个属性的不同权重值,进行加权平均后得到记录的相似度,若两个记录相似度超过某一个阈值,则认为两条记录匹配,否则认为这两条记录指向不同的实体。

(2)基于基本近邻排序算法的核心思想是为了减少记录的比较次数,在按关键字排序后的数据集上移动一个大小固定的窗口,通过检测窗口内的记录判定它们是否相似,从而确定并处理重复记录。

3、错误值的清洗

错误值的清洗方法主要包括使用统计分析的方法识别可能的错误值(如偏差分析、识别不遵守分布或回归方程的值)、使用简单规则库(即常识性规则、业务特定规则等)检测出错误值、使用不同属性间的约束以及使用外部的数据等方法检测和处理错误值。

(注:以上文章来自《数据清洗》‘黑马程序员’阅读笔记)。

???????

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-12 13:09:55  更:2021-09-12 13:10:21 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 15:55:30-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码