| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> AI达人训练营|数据获取与处理 -> 正文阅读 |
|
[人工智能]AI达人训练营|数据获取与处理 |
1.数据集的来源 1.1 Kaggle House Prices-Advanced Regression Techniques????? 预测销售价格 Cat and Dog???? ???? ???? ???? ???? 猫狗分类 Machine Learning from Disaster????? 预测泰坦尼克号的生存情况并熟悉机器学习基础知识 1.2 天池 Barley Remote Sensing Dataset大麦遥感检测数据集???? 遥感影像分割 耶鲁人脸数据库????? ???????????? 目标检测任务(人脸检测) 1.3 DataFountain 花卉分类数据集????????????? ???????? 图像分类 1.4 其他常用的数据集官网 2.图片的预处理方法: 标准化:中心化=去均值: ????????????????????????????????????????? 将各个维度中心化到0 ????????????????????????????????????????? 目的是加快收敛速度,在某些激活函数()上表现较好 ????????????? 归一化=除以标准差: ????????????????????????????????????????? 将各个维度的方差标准化处于[-1,1]之间 ????????????????????????????????????????? 目的是提高收敛效率,统一不同输入范围的数据对于模型学习的影响,映射到激活函数有效梯度的值域 归一化方法: 1.min-max标准化(Min-MaxNormolization) 也称为离差标准化,是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下: 其中max为样本数据的最大值,min为样本数据的最小值。这种方法有个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。 2.Z-score标准化(0-1标准化)方法 这种方法给予原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。经过处理的数据符合标准正态分布,即均值为0,标准差为1。 转化函数为: (μ为均值,σ为标准差,σ2为方差) CV中的数据增强: 随机旋转 随机水平或者重直翻转 缩放 剪裁 平移 调整亮度、对比度、饱和度、色差等等 注入噪声 基于生成对抗网络GAN做数搪增强AutoAugment等 纯数据处理完整流程 数据预处理与特征工程 1.感知数据 ----初步了解数据 ----记录和特征的数量特征的名称 ----抽样了解记录中的数值特点描述性统计结果 ----特征类型 ----与相关知识领域数据结合,特征融合 2.数据清理 ----转换数据类型 ----处理缺失数据 ----处理离群数据 3.特征变换 ----特征数值化 ----特征二值化[张1]? ----OneHot编码[张2]? ----特征离散化特征 ----规范化(包括正则化[张3]?、标准化、归一化) ??区间变换 ??标准化 ??归一化 4.特征选择 ----封装器法 ??循序特征选择 ??穷举特征选择 ??递归特征选择 ----过滤器法 ----嵌入法 5.特征抽取 ----无监督特征抽取 ??主成分分析 ??因子分析 ----有监督特征抽取 拓展知识:皮尔森系数[张4]? COCO格式: VOC格式: ?[张2] ?[张3]在求解最优化问题中,调节拟合程度的参数一般称为正则项,越大表明欠拟合,越小表明过拟合 为了解决过拟合问题,通常有两种方法,第一是减小样本的特征(即维度),第二是正则化(又称为惩罚penalty) 正则化的一般形式是在整个平均损失函数的最后增加一个正则项(L2范数正则化,也有其他形式的正则化,作用不同) 正则项越大表明惩罚力度越大,等于0表示不做惩罚。 正则项越小,惩罚力度越小,极端为正则项为0,则会造成过拟合问题;正则化越大,惩罚力度越大,则容易出现欠拟合问题。 ———————————————— ?[张4]皮尔森相关系数是用来反应俩变量之间相似程度的统计量,在机器学习中可以用来计算特征与类别间的相似度,即可判断所提取到的特征和类别是正相关、负相关还是没有相关程度。 Pearson系数的取值范围为[-1,1],当值为负时,为负相关,当值为正时,为正相关,绝对值越大,则正/负相关的程度越大。若数据无重复值,且两个变量完全单调相关时,spearman相关系数为+1或-1。当两个变量独立时相关系统为0,但反之不成立。 用Corr()函数即可,(保证行相同)。 公式如下: 当两个变量的标准差都不为零时,相关系数才有定义,Pearson相关系数适用于: (1)、两个变量之间是线性关系,都是连续数据。 (2)、两个变量的总体是正态分布,或接近正态的单峰分布。 (3)、两个变量的观测值是成对的,每对观测值之间相互独立 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/28 12:03:00- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |