[人工智能] 数据挖掘学习笔记2-数据预处理

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 数据挖掘学习笔记2-数据预处理 -> 正文阅读

[人工智能]数据挖掘学习笔记2-数据预处理

一、数据清洗
1.数据缺失：①忽视（删除）仅占比较小（2-3%）时可用②填充——固定填充；根据经验、样本猜测
2.离群点（正常）V.S. 异常点
离群点是相对概念（根据平均距离算）
3.重复数据
①使用滑动窗口，窗口内两两比较（假设：高度疑似的数据是紧挨的→生成KEY（根据相关知识），按key排序）

二、数据转换
1.类型转换
2.标准化（编码化，需要注意非顺序类的编码化，如果默认按0、1、2编码，则暗含了距离的属性。可用多位表示等间距）
(v-min)/(max-min) (new_max - new_min（通常为1、0）) 映射到0-1区间
或(v-μ)/Σ
3.采样
1.数据聚集取平均，数据更稳定
2.调整类别比例（整体准确率不适用于不平衡数据集——用G-mean=（Acc+ * Acc-）^1/2或F-measure）
3.over-sampling向上采样：样本中较少的类别，采用中间距离随机自我复制
4.boundary sampling边界采样：用于数据量太大
三、数据描述
可视化：
1.高维：matlab中的box plots（将数据拆分为每一维）、parallel coordinates（将数据用折线表示，每个维度为一个轴）
2.文本可视化：citespace（显示引用的次数）、Gephi（社交网络）
四、特征选择和提取算法：PCA LDA
选择：
1.利用熵
H（X）=﹣Σp(x)log(p(x)) 熵（越大说明不确定性越大，最大为1）
H（X | S）= P（S = a） H（X | S = a） + P（S = b） H（X | S = b）
gain(S,X) = H(S) - H(S | X) 信息增益
2.选择属性
分支定界法：假设S1属性集包含S2，则J（S1）＞J（S2）（J为效能）可得最优解
贪心算法为非最优解但速度较快
提取：
1.边缘检测：差分（做差值，若差值很大则可能为边缘点）
2.主成分分析（PCA）：属性的variance就是信息，若v越大则该属性越重要；去中心化；去相关性：Y=PX（旋转）XX^T = QDQ^T （特征分解，D为对角阵）YY^T = PQD(PQ)^T 则令P=Q^T 即可将YY^T 转化为对角阵（去相关性）；投影到一条线上（降维）：投影前投影后差距最小（距离）
PCA实际上是把特征投影到特征值最大的特征向量上，matlab函数：[V,D] = eig（s）
PCA用于非监督学习
3.线性判别分析（LDA）：用于监督学习（有标签）
投影降维，还要保证不同组的数据分开（没有重合，距离尽可能大）fisher准则 MAX J = （μ1 - μ2）² /(S1² +S2² )
Sw = S1 + S2
SB = （μ1 - μ2）*（μ1 - μ2）^T
w = argmax（w^T SB w）/(w^T Sw w) = Sw^-1 *(μ1 - μ2) （两分类问题）

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-02-05 21:44:41 更:2022-02-05 21:47:31

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/31 4:36:36-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码