| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 大数据 -> DataMining 第三章数据预处理笔记 -> 正文阅读 |
|
[大数据]DataMining 第三章数据预处理笔记 |
一、为什么进行数据预处理?? 定义数据质量的三大要素是:accuracy, completeness, and consistency. 数据的质量取决于你要用数据做什么用途,不同的用途会对数据质量评价的标准不同。 记录数据的及时性也会影响到数据的质量。假设在一家商业公司,月末进行销售额统计但是各个部门经理没有及时上报自己部门的销售额,那么在一段时间内这个数据是不精确的。 数据的可信度以及可解释性(能不能让人理解)也很重要,是影响数据质量的其他两个因素。 二、数据预处理的主要任务 1.数据清理是日常的工作。这一步主要是做弥补缺失数值,平滑噪声数据,识别或者移除离群点,检查数据不一致性。 2.数据集成。因为在集成 不同数据库中的内容时, 你会发现有很多重复的数据,或者指向同一个内容的数据,那么在这一步需要对数据进行集成,删除重复数据。 3.数据归约。数据归约的目的是为了减小数据集的体积,但是同时能够达到和未缩减数据模型一样的效果。他包括了维归约和数值归约。 维归约:使用数据编码的方案让原始数据得到简化或者压缩表示。 数值归约:使用参数模型或者非参数模型用较小的表示取代数据。 规范化,数据离散化和概念分层产生都是某种形式的数据变换(data transformation) 数据预处理的过程步骤分类不是互斥的。比如说数据清理是一种数据清理形式也是一种数据归约。 ? ? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/24 0:27:33- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |