IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 拓扑数据分析-Topological data analysis -> 正文阅读

[人工智能]拓扑数据分析-Topological data analysis

一、拓扑概念

拓扑主要研究的对象为几何图形或空间结构,探究在连续改变形状后还能保持不变的一些性质。它只考虑物体间的位置关系而不考虑它们的形状和大小。简单的描述为:一些特殊的几何性质,在图形连续改变形状后还能继续保持不变。

二、拓扑数据分析

拓扑学研究的是一些特殊的几何性质,这些性质在图形连续改变形状后还能继续保持不变,称为“拓扑性质”。而在复杂的高维数据内部也存在着类似的结构性质,我们可以形象地称之为数据的形状(特征)。

拓扑数据分析(Topological data analysis, TDA),顾名思义,就是把拓扑学与数据分析结合的一种分析方法,用于深入研究大数据中潜藏的有价值的关系。

  • 相比于主成分分析、聚类分析这些常用的方法,TDA不仅可以有效地捕捉高维数据空间的拓扑信息,而且擅长发现一些用传统方法无法发现的小分类。这种方法也因此曾在基因与癌症研究领域大显身手。

  • 和通常研究的成对关系相比,这种相互关系的形状之中可能潜藏了巨大的研究价值。要理解数据的形状,就必须求助于拓扑学。TDA所做的就是抽取这种形状并进行分析。
    在这里插入图片描述

三、拓扑分析步骤

在TDA数据分析中,mapper算法是必须的。具体的实现过程如下。

数据矩阵

  • 输入数据:输入数据可以是任何类型的数据,但是要满足一定的条件,即输入的数据必须要能够计算任何两数据之间的距离(这距离不局限于欧几里得距离,可以是用户定义的一些距离公式,目的就是要能够确定这个数据在总的输入数据中的一个大致“位置”)。
  • 输出:一个关于输入数据的拓扑图。

Mapper算法

The Algorithm
Given a dataset of points, the basic steps behind Mapper are as follows:

  1. Map to a lower-dimensional space using a filter function f f f, or lens. Common choices for the filter function include projection onto one or more axes via PCA or density-based methods.
  2. Construct a cover ( U i ) i ∈ I (U_i)_{i\in I} (Ui?)iI? of the projected space typically in the form of a set of overlapping intervals which have constant length.
  3. For each interval U_i cluster the points in the preimage f ? 1 ( U i ) f^{-1}(U_i) f?1(Ui?) into sets C i , 1 , … , C i , k i C_{i,1},\ldots,C_{i,k_i} Ci,1?,,Ci,ki??.
  4. Construct the graph whose vertices are the cluster sets and an edge exists between two vertices if two clusters share some points in common.
  • 使用一个(或多个)filter 函数,将输入数据X经过计算得到一个(或多个)值。即f(X) = a ,a是一个实数。
  • 设置两个超参,分别是resolution(即intervals的间距大小)和overlap(重叠区间的大小)。(重要!!)
  • 在每个intervals里面进行局部聚类,可以使用任何聚类算法。将聚在一起的类归并到一个拓扑节点。每一个拓扑节点中包含了不同的数据点。
  • 基于第2步,resolution中设置的overlap(相邻intervals里面会有公共的数据点),将有overlap的两个拓扑节点,使用线连接起来。
    在这里插入图片描述

优点

  • 优点1:一般现有的算法,如果要对高维数据进行可视化,必然会有一个降维的过程,那么现有的算法在降维后对原始数据会有一些信息的损失(维数越高,越明显)。而mapper算法始终保留高维空间中数据的整体拓扑信息,在这个方面,它远胜于其他算法。
  • 优点2:能够发现一些更小的类,检测传统方法无法找到的集群和有趣的拓扑结构
  • 优点3:发现的特征具有鲁棒性,选择最能区分数据和模型可解释性的特征

基于python的实现

Nowadays there are a few python open source libraries implementing the main TDA tools, like GUDHI, scikit-tda and Giotto. For our test we chose to use one of the most recent: the Giotto library, which is scikit-learn compatible, oriented towards machine learning, fast-performing with C++ state-of-the-art implementations.

# Define filter function
filter_func = umap.UMAP(n_neighbors=5) 
# Define cover
cover = CubicalCover(kind='balanced', n_intervals=10, overlap_frac=0.2)
# Choose clustering algorithm 
clusterer = DBSCAN(eps=10)
# Initialise pipeline
pipe = make_mapper_pipeline(
    filter_func=filter_func,
    cover=cover,
    clusterer=clusterer,
    verbose=True,
    n_jobs=-1,
)
# Plot Mapper graph
fig = plot_static_mapper_graph(pipe, X, color_by_columns_dropdown=True, color_variable=y)
fig.show(config={'scrollZoom': True})
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-08 14:00:00  更:2022-01-08 14:01:40 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 22:34:02-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码