IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 数据挖掘学习笔记2-数据预处理 -> 正文阅读

[人工智能]数据挖掘学习笔记2-数据预处理

一、数据清洗
1.数据缺失:①忽视(删除) 仅占比较小(2-3%)时可用②填充——固定填充;根据经验、样本猜测
2.离群点(正常)V.S. 异常点
离群点是相对概念(根据平均距离算)
3.重复数据
①使用滑动窗口,窗口内两两比较(假设:高度疑似的数据是紧挨的→生成KEY(根据相关知识),按key排序)

二、数据转换
1.类型转换
2.标准化(编码化,需要注意非顺序类的编码化,如果默认按0、1、2编码,则暗含了距离的属性。可用多位表示等间距)
(v-min)/(max-min) (new_max - new_min(通常为1、0)) 映射到0-1区间
或(v-μ)/Σ
3.采样
1.数据聚集取平均,数据更稳定
2.调整类别比例(整体准确率不适用于不平衡数据集——用G-mean=(Acc+ * Acc-)^1/2或F-measure)
3.over-sampling向上采样:样本中较少的类别,采用中间距离随机自我复制
4.boundary sampling边界采样:用于数据量太大
三、数据描述
可视化:
1.高维:matlab中的box plots(将数据拆分为每一维)、parallel coordinates(将数据用折线表示,每个维度为一个轴)
2.文本可视化:citespace(显示引用的次数)、Gephi(社交网络)
四、特征选择和提取 算法:PCA LDA
选择:
1.利用熵
H(X)=﹣Σp(x)log(p(x)) 熵(越大说明不确定性越大,最大为1)
H(X | S)= P(S = a)
H(X | S = a) + P(S = b)
H(X | S = b)
gain(S,X) = H(S) - H(S | X) 信息增益
2.选择属性
分支定界法:假设S1属性集包含S2,则J(S1)>J(S2)(J为效能) 可得最优解
贪心算法为非最优解但速度较快
提取:
1.边缘检测:差分(做差值,若差值很大则可能为边缘点)
2.主成分分析(PCA):属性的variance就是信息,若v越大则该属性越重要;去中心化;去相关性:Y=PX(旋转)XXT = QDQT (特征分解,D为对角阵)YYT = PQD(PQ)T 则令P=QT 即可将YYT 转化为对角阵(去相关性);投影到一条线上(降维):投影前投影后差距最小(距离)
PCA实际上是把特征投影到特征值最大的特征向量上,matlab函数:[V,D] = eig(s)
PCA用于非监督学习
3.线性判别分析(LDA):用于监督学习(有标签)
投影降维,还要保证不同组的数据分开(没有重合,距离尽可能大)fisher准则 MAX J = (μ1 - μ2)2 /(S12 +S22 )
Sw = S1 + S2
SB = (μ1 - μ2)*(μ1 - μ2)T
w = argmax(wT SB w)/(wT Sw w) = Sw-1 *(μ1 - μ2) (两分类问题)

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-02-05 21:44:41  更:2022-02-05 21:47:31 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 19:44:53-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码