IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> A. 人工智能 --- 算法设计步骤(数据预处理) -> 正文阅读

[人工智能]A. 人工智能 --- 算法设计步骤(数据预处理)

A. 人工智能 — 算法设计步骤(数据预处理)

数据预处理

  • 数据采样
    • 上采样
    • 下采样
  • 处理缺失值
    • 丢失缺失值(数据量大,缺失值少,比如互联网数据)
    • 遗失值插补
      • 该列的存在值的平均值
  • 去除唯一属性
  • 数据正则化,标准化
  • 数据摘要

特征提取

  • 特征列
    • 数值列
    • 分桶列
    • 分类标识列
    • 分类词汇列
    • 经过哈希处理的列
    • 组合列
    • 指标列和嵌入列
  • 特征提取算法
    • 文本
      • TFIDF
  • 特征选取
    • 步骤
      • 搜索新的特征子集
      • 对搜索结果进行评估
    • 方法
      • 包裹法
      • 过滤法
      • 嵌入法

降维

  • 线性降维
    • PCA: 主成分分析(无监督)
      • 步骤
        • 数据规范化
        • 协方差矩阵计算
        • 特征值分解
        • 降维处理
        • 数据投影
      • 缺点
        • 只能做线性降维,无法做非线性降维
      • 算法
        • NMF(Non-negative matrix factorization)
        • 没有非负限制的降维
    • LDA: 监督算法
      • 结合label,做线性降维。
  • 非线性降维
    • 基于图的降维
      • 拉普拉斯特征映射(LE)
        • 拉普拉斯特征映射是一种基于图的降维算法,它希望相互间有关系的点(在图中相连的点)在降维后的空间中尽可能的靠近,从而在降维后仍能保持原有的数据结构。
      • 局部线性嵌入(LLE)
        • 概述
          • LLE关注于降维时保持样本局部的线性特征,由于LLE在降维时保持了样本的局部特征,它广泛的用于图像图像识别,高维数据可视化等领域。
        • 目标
          • 我们有一块卷起来的布,我们希望将其展开到一个二维平面,我们希望展开后的布能够在局部保持布结构的特征,其实也就是将其展开的过程,就想两个人将其拉开一样。
          • 在局部保持布结构的特征,或者说数据特征的方法有很多种,不同的保持方法对应不同的流形算法:比如说
            • 等距映射(ISOMAP)算法在降维后希望保持样本之间的测地距离而不是欧式距离,因为测地距离更能反映样本之间在流形中的真实距离。
              • 问题
                • 等距映射算法有一个问题就是他要找所有样本全局的最优解,当数据量很大,样本维度很高时,计算非常的耗时
              • 解决思路
                • LLE通过放弃所有样本全局最优的降维,只是通过保证局部最优来降维。同时假设样本集在局部是满足线性关系的,进一步减少的降维的计算量。
        • 核心思想
    • t-SNE
      • 问题
        • LE和LLE只能处理相近的点相近,无法处理不同的点也可能相近的情况
      • 两种分布的条件概率尽可能的相近,可以用梯度下降的方法
        • 计算不同的点之间的相似度
        • 计算不同点之间相似度的条件概率
      • 优化
        • 先做 PCA 到一定程度,再做t-SNE
  • 因子分析
  • 独立成分分析
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-24 14:56:26  更:2021-10-24 14:57:17 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 10:12:32-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码