| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> 数据清洗(黑马程序员著) 第一章读书笔记 -> 正文阅读 |
|
[大数据]数据清洗(黑马程序员著) 第一章读书笔记 |
现实生活中,我们接触到的数据是海量的,来源广泛的,类型繁杂的。这些原始的数据夹杂着不完整、重复以及错误的数据,如果直接使用,会严重的影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。 1.数据质量的评价指标数据清洗的目的是为了将脏数据洗掉,提高数据质量。而数据质量的评价指标包括四方面: (1)准确性指要求数据中的噪声尽可能小。对于数据中偏离常规、分散小的数据,一般就视为是噪声或异常值,可通过常用的异常值检测方法聚类进行处理。 (2)完整性指数据信息中是否存在缺失的状况。数据缺失的情况可能是整条数据记录的缺失,也可能是数据中的某个字段信息的记录缺失。不完整的数据会使其本身的借鉴价值大大降低。 (3)简洁性指要尽量选择重要的本质属性,并消除冗余。在数据挖掘时,特征属性的个数越多,数据越容易出现噪声。因此进行决策时,往往要抓住反映问题的主要因素,而不是把问题的细节都搞得很清楚。 (4)适用性前三个归根结底都是为了数据的实际效用,因此适用性是评价数据质量的核心准则。 2.数据质量的问题分类(1)基于数据源的‘脏’数据分类模式层是指数据库的结构,就是关系结构;实例层是指关系中具体存储的数据记录或元组。 ?(2)基于清洗方式的‘脏’数据分类3.数据清洗的原理?数据清洗是利用相关技术将‘脏’数据转换为满足质量要求的数据。下面这张图表述了数据清洗的原理: ? 4.数据清洗的基本流程数据清洗的基本流程分为以下5个步骤: ? 5.数据清洗的方法数据清洗的 (1)缺失值的清洗缺失值的清洗方法主要分为两类:忽略缺失值数据和填充缺失值数据 a.忽略缺失值数据方法是直接通过删除属性或实例忽略缺失值的数据 b.填充缺失值数据方法是使用最接近缺失值的替代缺失的值,包括人工填写缺失值,使用一个全局常量填充缺失值以及使用属性的平均值,中间值、最大值填充缺失值,或使用最可能的值填充区缺失值 (2)重复值的清洗目前,清洗重复值的基本思想是‘排序和合并’。清洗重复值的方法主要有相似度计算和基于基本近邻排序算法等方法 a.相似度计算是通过计算记录的个别属性的相似度,然后考虑每个属性的不同权重值进行加权平均后得到记录的相似度,若两个记录相似度超过某一阈值,则认为两条记录匹配,否则认为两条记录指向不同的实体 b.基于基本近邻排序算法的核心思想是为了减少记录的比较次数,再按关键字排序后的数据集上移动一个大小固定的窗口,通过检测窗口内的记录判定他是否相似,从而确定并处理重复记录 (3)错误值的清洗错误值的清洗方法主要包括使用统计分析的方法识别可能的错误值,使用简单规则库检测出错误,使用不同属性间的约束以及使用外部的数据等方法检测和处理错误值 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/23 20:01:46- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |