IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 机器学习中数据预处理的几种方法 -> 正文阅读

[人工智能]机器学习中数据预处理的几种方法

? ? ? 由于实际收集到的机器学习数据集不可避免的会存在数据缺、数据集不平衡和数据集中各类数据非同一量级等情况,对缺失数据进行补全和对异常数据进行清洗、均衡化处理防止类别不平衡和数据标准化处理对于机器学习模型至关重要。

1?数据补全方法

? ? ? 有效地恢复缺失的数据是进行机器学习建模的重要前期准备工作。一方面可使得数据更完整,便于后续进一步的分析研究,另一方面,数据补全本身就是对信息进行挖掘的一种方式。

? ? ? 常见的数据补全方法包括均值补全、回归填补法、期望最大化填补法、高斯混合模型(Gaussian Mixture Model , GMM)补全 C均值(C-Means)补全 K近邻(K Nearest Neighbors , KNN)补全、决策树填补法等。

2?数据均衡方法

? ? ? 由于实际情况,例如在信用卡欺诈检测数据集中,大多数信用卡交易类型都不是欺诈,仅有很少一部分类型是欺诈交易,如此以来,非欺诈交易和欺诈交易之间的比率达到50:1,导致数据集不平衡问题,因此需要对数据进行均衡化处理以平衡各类,从而避免种类欠均衡而造成的负面效应。常见的均衡化方法有“欠采样”和“过采样”两类,“欠采样”就是从数量多的.类别中随机丢弃一些数据,从而保证类别均衡,而“过采样”则是增加数量较少样本的采样频率或对训练集数据进行插值来保证类别均衡。“欠采样”会导致训练数据规模减小,可能丢失数据,而“过采样”若直接对初始数据进行多次采样会导致严重的过拟合。

? ? ? SMOTE是解决数据集不平衡问题的一种过采样方法。与一般的抽样方法不同,SMOTE并非简单地拷贝样本,而是按照一定规则合成少数类样本,以达到平衡类别的目的

3 数据归一化

? ? ? 数据归一化处理是机器学习中的一项挖掘数据的基础工作,其目的是将取值范围相差较大的不同类型的测井曲线通过一种无量纲的处理手段,将原始数据值通过函数转换变成具有某种相对关系的相对值,数据量缩小到特定范围之内。

? ? ? 数据经过归一化处理后,各指标处于同一数量级,适合进行综合对比评价。以下是三种常用的归一化方法:

1)最值归一化(min-max normalization, MMN

? ? ? 也称为线性归一化,是对原始数据进行线性变换,将原始数据点映射到[ 0,1 ],也可以映射到自己定义的某个区间内。假设样本数据有 个,其转换函数如下

? ? ? 其中Ximax为样本数据的最大值,Ximin为样本数据的最小值。

? ? ? 最值归一化的优点是,使用简单、快速、灵活,缺点是当数据存在极端点(如只有一两个数值极大或极小),将会影响整个数据处理过程,造成映射后数据质量很差。

2)标准分数归一化方法(z-score normalizationZSN

原始数据经标准分数归一化后的数据呈标准正态分布,即均值是0,标准差为1。假设样本数据有 个,其转换函数如下所示:

? ? ??其中\mu为原始数据的均值, \sigma为原始数据的标准差,是当前用得最多的数据标准化方式。

3)中值归一化方法(median normalizationMDN

? ? ? 中值归一化首先寻找原数据的中值,然后使用最大值最小值的差作为比例因子,将原始数据映射到某个区间内,一般是把零点作为区间中值,区间定为(-1,+1)或某个自定的范围。此方法多用于数据中没有错误样本,而只是单纯的将整个数据进行等比例的扩大或者缩小。

? ? ? 假设样本数据有?n个,其转换函数如下所示::

??

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-29 09:05:19  更:2021-08-29 09:08:14 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 17:56:01-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码