IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 数据挖掘分析之数据预处理 -> 正文阅读

[人工智能]数据挖掘分析之数据预处理

目录

为什么要进行数据预处理

什么是数据预处理

如何进行数据预处理

min-max规范化

?Z-score标准化

小数定标规范化

正态变换

?分类-标志变量

分类-数值变量

连续数值分段

删除无用变量

删除重复记录


数据挖掘概述章节中,提到了跨行业数据挖掘分析标准化流程CRISP-DW,其中有数据理解、和数据准备环节,数据预处理即是针对这两个环节的处理。

为什么要进行数据预处理

首先思考一下,为什么要进行数据预处理,不能直接拿来用吗?

从数据挖掘命题自身出发,在确定了业务目标后,核心在于建立数据挖掘模型,不同的数据挖掘模型所需要的数据格式及要求均不同,而模型所需要的数据则不会那么标准的直接提供给我们,因此数据预处理是一个必要且必须的环节。

从数据本身出发,由于数据的产生途径、定义方式、存储介质、数据质量等等不尽相同,因此也有必要针对不同类型的数据进行标准化的预处理。

什么是数据预处理

简单来说就是基于业务/建模的要求,对数据进行清理、转换、填充的归一化处理

如何进行数据预处理

从数据预处理的定义来讲,其处理是基于业务/建模的要求来出发,所以首先需要明确数据需求方的具体要求,这是正常的挖掘分析流程。不过目前我们只分析数据预处理有哪些类型,如何进行?

具体如下:

  1. min-max标准化
  2. Z-score标准化
  3. 小数定标规范化
  4. 正态变换
  5. 分类-标志变量
  6. 分类-数值变量
  7. 连续数值分段
  8. 删除无用变量
  9. 删除重复记录

min-max规范化

将数据映射到[0~1]之间,属于线性变换

min-max = (数值- 最小值)/(最大值-最小值)

如下图:假设最小值为1,最大值为6

?Z-score标准化

Z-score = (数值-平均值)/标准差,属于线性变换,变换后的数据均值为0,标准差为1

如下:

小数定标规范化

将数据规范化在[-1~1]之间,属于线性变换,类似于将原始数据的小数点前移,d指的是数据中的最大值的位数,比如最大值48920,这个最大值的位数d=5

X_{m}=\frac{X}{10^{d}}

如下:

正态变换

正太变换属于非线性变换,常用的正态变换有:

自然对数变换,也就是对数值求对数

平方根变换,也就是对数值求开方

平方根倒数变换,也就是在平方根的基础上在进行倒数变换

要注意,以上变换只是使得数据的分布更加接近正态分布,并不是说经变换后就完全符合正态分布

对数变换:

平方根变换

平方根倒数变换

?分类-标志变量

分类标志变量,即将数据映射为0或者1,只有这两个类别

如果实际数据类别为2类,那么0和1分布对应不同的类

如果实际数据类别大于等于3类,那么当符合某一条件的类时,映射为1,其他均为0

分类-数值变量

分类数值变量,同标志变量相比,数据类别的变换不在只要求0和1,根据实际类别去走

连续数值分段

?连续数值分段,即针对连续型数据,进行分段处理,常用的分段处理方式有:

等宽分段、等频分段、分类算法分段等

删除无用变量

无用变量,也就是对模型训练提供不了实质信息的变量,比如一组数据中某个字段为国家,全部是中国,这个字段在所有样本里面都相同,就可以删除,又如某个字段,其中90%的样本都为空,那么这个也可以删除掉

另外一些对模型起不到实质信息的字段,哪怕数据质量很高,也可以删除掉,避免对模型进行影响干扰。

删除重复记录

重复记录在模型训练过程中,可能会影响部分参数的权重,原本不同类型的样板数量较为均衡,但重复记录打破了这一平衡,让重复类型的样本更大程度的影响了模型的训练。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-09 18:22:35  更:2022-04-09 18:22:41 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 11:47:15-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码