[人工智能] 【机器学习】聚类算法

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【机器学习】聚类算法 -> 正文阅读

[人工智能]【机器学习】聚类算法

文章目录

- 聚类算法

聚类算法

1.聚类算法的概念

?种典型的?监督学习算法，主要?于将相似的样本?动归到?个类别中。

在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算?法，会得到不同的聚类结果，常?的相似度计算?法有欧式距离法。

聚类算法是?监督的学习算法，?分类算法属于监督的学习算法。

2.聚类算法实现流程

k-means聚类步骤

1、随机设置K个特征空间内的点作为初始的聚类中?
2、对于其他每个点计算到K个中?的距离，未知的点选择最近的?个聚类中?点作为标记类别
3、接着对着标记的聚类中?之后，重新计算出每个聚类的新中?点（平均值）
4、如果计算得出的新中?点与原中?点?样（质?不再移动），那么结束，否则重新进?第?步过程

由于每次都要计算所有的样本与每?个质?之间的相似度，故在?规模的数据集上，K-Means算法的收敛速度?较慢。

在这里插入图片描述

3.模型评估

3.1 误差平?和(SSE \The sum of squares due to error)

在这里插入图片描述

3.2 “肘”?法 (Elbow method) — K值确定

在这里插入图片描述
（1）对于n个点的数据集，迭代计算k from 1 to n，每次聚类完成后计算每个点到其所属的簇中?的距离的平?和；
（2）平?和是会逐渐变?的，直到k==n时平?和为0，因为每个点都是它所在的簇中?本身。
（3）在这个平?和变化过程中，会出现?个拐点也即“肘”点，下降率突然变缓时即认为是最佳的k值。
在决定什么时候停?训练时，肘形判据同样有效，数据通常有更多的噪?，在增加分类?法带来更多回报时，我们停?增加类别。

3.3 轮廓系数法（Silhouette Coefficient）

结合了聚类的凝聚度（Cohesion）和分离度（Separation），?于评估聚类的效果：
在这里插入图片描述

?的：

内部距离最?化，外部距离最?化

计算样本i到同簇其他样本的平均距离ai，ai 越?样本i的簇内不相似度越?，说明样本i越应该被聚类到该簇。
计算样本i到最近簇Cj 的所有样本的平均距离bij，称样本i与最近簇Cj 的不相似度，定义为样本i的簇间不相似度：bi =min{bi1, bi2, …, bik}，bi越?，说明样本i越不属于其他簇。
求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数。
平均轮廓系数的取值范围为[-1,1]，系数越?，聚类效果越好。
簇内样本的距离越近，簇间样本距离越远