| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【20210723】【机器/深度学习】“基于特征工程完成对贷款数据集Lending Club的预处理” 学习笔记 -> 正文阅读 |
|
[人工智能]【20210723】【机器/深度学习】“基于特征工程完成对贷款数据集Lending Club的预处理” 学习笔记 |
????????学习链接:https://work.datafountain.cn/forum?id=79&type=2&source=1 ????????相关知识点: ????????????????数据预处理 ????????????????特征工程 ????????????????特征工程基本流程 ????????????????python 相关库函数(pandas, numpy 等) 一、背景????????在机器学习领域,有这样一句话:“数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近这个上限而已”。特征工程是从原始数据集转变为适合于模型且质量较高的训练数据的过程,其中对数据的处理涉及了统计学和专业领域的知识。 ????????特征工程是机器学习中非常重要的一部分,“更多的数据胜过聪明的算法,而更好的数据胜过更多的数据”,所以特征工程环节十分关键!特征工程主要包括特征提取和特征选择。 ?二、具体步骤第一步:导入所需数值计算库、读取原始数据集
?第二步:特征提取和处理? ? ? ? 特征提取和处理是将原始特征转换为一组具有明显物理意义或统计意义的特征,也就是说将机器学习算法识别不了的数据转变为可识别的数据特征的过程。特别地,提取到的特征能够增强模型的可解释性。 ????????本文主要介绍下面几方面的特征提取和处理方法:数值特征、类别特征、时间特征、特征交叉。 2.1 数值特征????????常用的对数值特征提取和处理的方法有:缩放、对数变换、数值离散化、分箱等。 ? ? ? ??1.?缩放:是一种用来统一特征取值范围的方法,常用的缩放方法有:Z-Score标准化、最大最小归一化等。
? ? ? ? 2.?对数变换:可以对数值较大的范围进行压缩,对数值较小的范围进行扩展,可以很好的应对长尾分布现象,使数据分布更接近正态分布。 ? ? ? ? 3.?数值离散化:当原始特征的数值作用不大时,可以采用某种临界点等方法将原始特征转化为二值特征。
? ? ? ??4. 分箱:当数值跨越的数量级范围较大时,可以把数值按一定的顺序划分为几部分,常用的方法有:固定宽度分箱、分位数分箱、卡方分箱、聚类分箱等。
三、知识点1. 数据规范化(归一化) ????????是数据挖掘的一项基础工作,由于不同评价指标、不同数据集有不同的量纲,为了消除指标之间的量纲和取值范围差异的影响,需要进行标准化处理,将数据按照比例进行缩放。提高了数据可比性,削弱了数据可解释性。 (1)最大最小归一化:也称离散标准化,是对原始数据的线性变换,将数据映射到 [0, 1] 之间,处理公式为: ?(2)z-score标准化(零-均值规范化):也称标准差标准化,经处理后的数据均值为0,标准差为1,处理公式为: ????????(参考:Z-Score数据标准化)? ????????(参考:数据规范化(归一化)、及Z-score标准化)? 2.? 分箱库函数 pandas.cut() —— 对连续型的数值进行分箱操作
? ? ? ? (参考:数据分箱之pd.cut())? |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/17 20:22:07- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |