| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> AI 人工智能学习之聚类分析及算法(2) -> 正文阅读 |
|
[人工智能]AI 人工智能学习之聚类分析及算法(2) |
聚类聚类(Clustering)是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。 聚类是指把相似的数据划分到一起,具体划分的时候并不关心这一类的标签,目标就是把相似的数据聚合到一起。 聚类算法 k均值聚类是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k,k由用户指定,k均值算法根据某个距离函数反复把数据分入k个聚类中。 kmeans算法划分聚类(partition based clustering):给定包含N个点的数据集,划分法将构造K个分组;每个分组代表一个聚类,这里每个分组至少包含一个数据点,每个数据点属于且只属于一个分组;对于给定的K值,算法先给出一个初始化的分组方法,然后通过反复迭代的的方法改变分组,知道准则函数收敛。 K-means算法是输入聚类个数k,以及包含 n个数据对象的数据库,输出满足方差最小标准的k个聚类。 算法定义: 给定样本集:,?k均值算法针对聚类所得簇: 最小化平方差:,其中:?簇? 的质心,上面的2代表平方,下面的2代表范数2。 k-means 算法基本步骤 优点:
缺点:
DBSCAN聚类算法DBSCAN是基于密度的聚类算法,核心思想为将数据集的各密集区域当做一个一个的聚类簇。BSCAN算法的显著优点是聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类。DBSCAN基于密度,它可以找到样本点的全部密集区域,并把这些密集区域当做一个一个的聚类簇。 DBSCAN算法基于点的密度而不是点之间的距离,此外它也不要求我们指定集群的数量,不仅有效避免了异常值,并且在任意形状和大小的集群上都具有非常好的聚类效果。DBSCAN 算法中有两个重要参数:Eps 和 MmPtS。Eps 是定义密度时的邻域半径,MmPts 为定义核心点时的阈值。 算法原理:
算法参数?半径(epsilon):计算的最大半径(epsilon?)。如果数据点的相互距离小于或等于指定的epsilon,那么它们在同一邻域。换句话说,它是DBSCAN用来确定两个点是否相似和属于同一类的距离。更大的epsilon将产生更大的簇(包含更多的数据点),更小的epsilon将构建更小的簇。 最小点(minpts):在一个邻域内,点的最小数量。这些点被认为是一个簇。这里要特别注意,初始点包含在minpts中。一个较低的minpts帮助算法建立更多的集群与更多的噪声或离群值。较高的minpts将确保更健壮的集群,但如果集群太大,较小的集群将被合并到较大的集群中。 核心点:以该点为圆心,如果给定半径epsilon内含有大于等于minpts数目的点,那么该点就是核心点。 边界点:以该点为圆心,如果给定半径epsilon内含有不超过minpts数目的点,并且落在核心点的epsilon半径内。 噪声点:不是核心点也不是边界点的点。 密度直达:如果P为核心点,Q在P的邻域内,那么称P到Q密度直达。反之不一定成立,即此时不能说Q到P密度直达,除非Q也是核心点,即密度直达不满足对称性。 如上图左,4为核心点,1在4的邻域内,那么4到1密度直达。 密度可达:如果存在核心点P2,P3,......,Pn,并且P1到P2密度直达,P2到P3密度直达,......,Pn-1到Pn密度直达,Pn到Q密度直达,则P1到Q密度可达。密度可达也不具备对称性。 如上图中,4、5为核心点,1在4的邻域内,4到1密度直达。那么5到1密度可达。 密度相连:如果存在核心点S,使得S到P和Q都密度可达,则P和Q密度相连。密度相连具有对称性,如果P和Q密度相连,那么Q和P也一定密度相连。密度相连的连个点属于同一聚类簇。 如上图右,4、5为核心点,1在4的邻域内,6在5邻域内,5到1密度可达,5到6密度直达,所以6和1之间密度相连。 非密度相连:如果两个点不属于密度相连关系,则两个点非密度相连。非密度相连的两个点属于不同的聚类簇,或者其中存在噪声点。如上图右,8与其它点都非密度相连。 当minPts=3时,虚线圈表示ε邻域,则从下图中DD可以观察到:
? ε邻域使用(ε,minpts)这两个关键的参数来描述邻域样本分布的紧密程度,规定了在一定邻域阈值内样本的个数(类似密度的概念) 算法优缺点优点:
缺点:
聚类评估轮廓系数聚类效果好坏的一种评价方式。它结合内聚度和分离度两种因素。可以用来在相同原始数据的基础上用来评价不同算法、或者算法不同运行方式对聚类结果所产生的影响。 好的聚类一般内密外疏,同一个聚类内部的样本要足够密集,不同聚类之间样本要足够疏远。 针对样本空间中的一个特定样本,计算它与所在聚类其它样本的平均距离a,以及该样本与距离最近的另一个聚类中所有样本的平均距离b,该样本的轮廓系数为(b-a)/max(a, b), 将整个样本空间中所有样本的轮廓系数取算数平均值,作为聚类划分的性能指标s。 针对某个样本的轮廓系数s为:
优缺点轮廓系数的优点
轮廓系数的缺点
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 21:48:03- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |