| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 数据挖掘分析之数据预处理 -> 正文阅读 |
|
[人工智能]数据挖掘分析之数据预处理 |
目录 在数据挖掘概述章节中,提到了跨行业数据挖掘分析标准化流程CRISP-DW,其中有数据理解、和数据准备环节,数据预处理即是针对这两个环节的处理。 为什么要进行数据预处理首先思考一下,为什么要进行数据预处理,不能直接拿来用吗? 从数据挖掘命题自身出发,在确定了业务目标后,核心在于建立数据挖掘模型,不同的数据挖掘模型所需要的数据格式及要求均不同,而模型所需要的数据则不会那么标准的直接提供给我们,因此数据预处理是一个必要且必须的环节。 从数据本身出发,由于数据的产生途径、定义方式、存储介质、数据质量等等不尽相同,因此也有必要针对不同类型的数据进行标准化的预处理。 什么是数据预处理简单来说就是基于业务/建模的要求,对数据进行清理、转换、填充的归一化处理 如何进行数据预处理从数据预处理的定义来讲,其处理是基于业务/建模的要求来出发,所以首先需要明确数据需求方的具体要求,这是正常的挖掘分析流程。不过目前我们只分析数据预处理有哪些类型,如何进行? 具体如下:
min-max规范化将数据映射到[0~1]之间,属于线性变换 min-max = (数值- 最小值)/(最大值-最小值) 如下图:假设最小值为1,最大值为6 ?Z-score标准化Z-score = (数值-平均值)/标准差,属于线性变换,变换后的数据均值为0,标准差为1 如下: 小数定标规范化将数据规范化在[-1~1]之间,属于线性变换,类似于将原始数据的小数点前移,d指的是数据中的最大值的位数,比如最大值48920,这个最大值的位数d=5 如下: 正态变换正太变换属于非线性变换,常用的正态变换有: 自然对数变换,也就是对数值求对数 平方根变换,也就是对数值求开方 平方根倒数变换,也就是在平方根的基础上在进行倒数变换 要注意,以上变换只是使得数据的分布更加接近正态分布,并不是说经变换后就完全符合正态分布 对数变换: 平方根变换 平方根倒数变换 ?分类-标志变量分类标志变量,即将数据映射为0或者1,只有这两个类别 如果实际数据类别为2类,那么0和1分布对应不同的类 如果实际数据类别大于等于3类,那么当符合某一条件的类时,映射为1,其他均为0 分类-数值变量分类数值变量,同标志变量相比,数据类别的变换不在只要求0和1,根据实际类别去走 连续数值分段?连续数值分段,即针对连续型数据,进行分段处理,常用的分段处理方式有: 等宽分段、等频分段、分类算法分段等 删除无用变量无用变量,也就是对模型训练提供不了实质信息的变量,比如一组数据中某个字段为国家,全部是中国,这个字段在所有样本里面都相同,就可以删除,又如某个字段,其中90%的样本都为空,那么这个也可以删除掉 另外一些对模型起不到实质信息的字段,哪怕数据质量很高,也可以删除掉,避免对模型进行影响干扰。 删除重复记录重复记录在模型训练过程中,可能会影响部分参数的权重,原本不同类型的样板数量较为均衡,但重复记录打破了这一平衡,让重复类型的样本更大程度的影响了模型的训练。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 11:47:15- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |