| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 数据清洗第一章读书笔记 -> 正文阅读 |
|
[人工智能]数据清洗第一章读书笔记 |
数据清洗的目的是解决“脏”数据问题,即不是将“脏”数据洗掉,而是将“脏”数据清洗干净。 一 数据质量的评价指标 1.准确性 要求数据中的噪声尽可能小。为提高数据的准确性,需要对数据集进行降噪处理。 2.完整性 指数据信息是否存在缺失的情况。 3.简洁性 就是要尽量选择中药的本质属性,并消除冗余。在数据挖掘时,特征的个数越多,产生噪声的机会就越大。 4.适用性 适用性是评价数据质量的重要指标。 二 数据质量的问题分类 1.基于数据源的“脏”数据分类 脏数据:通常情况下,将数据源中不完整,重复以及错误的数据称为“脏”数据。 基于数据源的“脏”数据质量问题可以分为单数据源问题和多数据源问题 1.1单数据源问题 单数据源的数据质量主要取决于它的模式对数据完整性约束的控制程度。 单数据源的实例层问题是由于数据在模式层无法预防的错误和不一致引起的。典型的单数据源实例层问题包括缺失值,拼写错误(即在数据输入时容易出现),属性依赖冲突(即不满足属性间的依赖关系,如城市名与邮政编码不满足对应关系等)以及相似重复记录。 1.2多数据源问题 单数据源情况下出现的问题在多数据源情况下变的更加严重。 多数据源中存在的与模式相关的质量问题主要是名字冲突和结构冲突。的 名字冲突表现在同一个名字表示不同的对象,或不同的名字表示同一个对象;结构冲突的典型表现是不同的数据源中同一对象用不同的数据表示。 2.基于清洗方式的“脏”数据分类 从数据清洗方式的设计者角度看,可以将“脏”数据分为“独立性”“脏”数据和““依赖性”“脏”数据”。 2.1 独立性“脏”数据 独立性“脏”数据可通过记录或本身属性检验出是否包含“脏”数据,不需要依赖其他记录或属性检验。 合法性检验是判断数据是否符合给定标准的过程,判断标准是用户根据业务需要定义的一些检验规则。 2.2依赖性“脏”数据 依赖性“脏”数据主要包括缺失数据和重复数据等“脏”数据。 缺失数据:主要包括空值和数据异常。缺失值是指值实际存在,但没有存入所属字段中。 重复数据:指一个现实主体在数据集中以多个不完全相同的记录表示。 三 数据清洗的基本流程 1.数据分析 数据分析是数据清洗的前提和基础,通过人工检测或者计算机分析程序的方式对原始数据源的数据进行检测分析,从而得出原始数据源中存在的数据质量问题。 2.定义数据清洗的策略和规则 根据数据分析出的数据源个数和数据源中“脏”数据程度定义数据清洗策略和规则,并选择合适的数据清洗算法。 3.搜寻并确定错误实例 搜寻并确定错误实例步骤包括自动检测属性错误和检测重复记录的算法。 4.纠正发现的错误 1.从原始数据源的属性字段中抽取值 2.确认并改正 3.标准化 5.干净数据回流 四 常见的数据清洗方法 1.缺失值的清洗 主要分为忽略缺失值和填充缺失值。 2.重复值的清洗 目前清洗重复值的基本思想是“排序和合并”。清洗重复值的方法主要有相似度计算和基于基本相邻排序算法等方法。 3.错误值的清洗 错误值的清洗方法主要包括使用统计分析的方法识别可能的错误值,使用简单规则库检测出错误值,使用不同属性间的约束以及使用外部的数据等方法检测和处理错误值。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 15:35:10- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |