A. 人工智能 — 算法设计步骤（数据预处理）

数据预处理

数据采样
- 上采样
- 下采样
处理缺失值
- 丢失缺失值（数据量大，缺失值少，比如互联网数据）
- 遗失值插补
  - 该列的存在值的平均值
去除唯一属性
数据正则化，标准化
数据摘要

特征提取

特征列
- 数值列
- 分桶列
- 分类标识列
- 分类词汇列
- 经过哈希处理的列
- 组合列
- 指标列和嵌入列
特征提取算法
- 文本
  - TFIDF
特征选取
- 步骤
  - 搜索新的特征子集
  - 对搜索结果进行评估
- 方法
  - 包裹法
  - 过滤法
  - 嵌入法

降维

线性降维
- PCA: 主成分分析（无监督）
  - 步骤
    - 数据规范化
    - 协方差矩阵计算
    - 特征值分解
    - 降维处理
    - 数据投影
  - 缺点
    - 只能做线性降维，无法做非线性降维
  - 算法
    - NMF（Non-negative matrix factorization）
    - 没有非负限制的降维
- LDA: 监督算法
  - 结合label，做线性降维。
非线性降维
- 基于图的降维
  - 拉普拉斯特征映射（LE）
    - 拉普拉斯特征映射是一种基于图的降维算法，它希望相互间有关系的点（在图中相连的点）在降维后的空间中尽可能的靠近，从而在降维后仍能保持原有的数据结构。
  - 局部线性嵌入（LLE）
    - 概述
      - LLE关注于降维时保持样本局部的线性特征，由于LLE在降维时保持了样本的局部特征，它广泛的用于图像图像识别，高维数据可视化等领域。
    - 目标
      - 我们有一块卷起来的布，我们希望将其展开到一个二维平面，我们希望展开后的布能够在局部保持布结构的特征，其实也就是将其展开的过程，就想两个人将其拉开一样。
      - 在局部保持布结构的特征，或者说数据特征的方法有很多种，不同的保持方法对应不同的流形算法：比如说
        等距映射（ISOMAP）算法在降维后希望保持样本之间的测地距离而不是欧式距离，因为测地距离更能反映样本之间在流形中的真实距离。
        问题
        等距映射算法有一个问题就是他要找所有样本全局的最优解，当数据量很大，样本维度很高时，计算非常的耗时
        
        解决思路
        LLE通过放弃所有样本全局最优的降维，只是通过保证局部最优来降维。同时假设样本集在局部是满足线性关系的，进一步减少的降维的计算量。
    - 核心思想
- t-SNE
  - 问题
    - LE和LLE只能处理相近的点相近，无法处理不同的点也可能相近的情况
  - 两种分布的条件概率尽可能的相近，可以用梯度下降的方法
    - 计算不同的点之间的相似度
    - 计算不同点之间相似度的条件概率
  - 优化
    - 先做 PCA 到一定程度，再做t-SNE
因子分析
独立成分分析

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-10-24 14:56:26 更:2021-10-24 14:57:17

360图书馆购物三丰科技阅读网日历万年历 2026年3日历

-2026/3/8 10:27:06-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码