主要内容 聚类分析概述 K-Means聚类 层次聚类 基于密度的聚类 其他聚类方法 聚类评估 小结
七、小结
簇是数据对象的集合,同一个簇中的对象彼此相似,而不同簇中的对象彼此相异。将物理或抽象对象的集合划分为相似对象的类的过程称为聚类。
常用的聚类方法有划分方法、层次方法、基于密度的方法和概率模型的聚类方法。
划分方法首先创建k个分区的初始结合,其中参数k是要构建的分区数。然后,它采用迭代重定位技术,试图通过把对象从一个簇移到另一个簇来改进划分的质量。典型的划分方法包括K-means、K中心点、CLAEANS。
层次方法创建给定数据对象集的层次分解。根据层次分解的形成方式,层次方法可以分为凝聚的(自底向上)或分裂的(自顶向下)。典型的层次方法包括BIRCH、CURE、Chameleon。
基于密度的方法使用密度的概念来聚类对象。一种典型的方法是DBSCAN,它使用基于中心的方法定义相似度,根据邻域中对象的密度来生成簇。其他典型的基于密度的方法还有OPTICS和DENCLUE。
聚类评估对在数据集上进行聚类分析的可行性和由聚类方法产生的结果的质量进行估计,包括评估聚类趋势、确定簇的个数和测定聚类的质量。
|