| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 近邻传播 Affinity Propagation(AP) 聚类算法原理及实现 -> 正文阅读 |
|
[人工智能]近邻传播 Affinity Propagation(AP) 聚类算法原理及实现 |
1.概述? ? ? 机器学习中 AP(Affinity Propagation)通常被称为近邻传播算法或者密切度传播或类同传播算法,由 Frey 与Dueck于2007年在Science首次提出。AP算法的基本思想是将全部数据点都当作潜在的聚类中心(称之为exemplar),然后数据点两两之间连线构成一个网络(相似度矩阵),再通过网络中各条边的消息(responsibility和availability)传递计算出各样本的聚类中心(cluster center)。 2.算法原理2.1 算法思想? ? ?不同于K均值聚类等算法需要提前设置簇数量K,这种方法自动确定簇的数量。对于聚类对象中每个数据点都选择另一个数据点作为其范例(exemplar)或质心(centroid)。更准确地说,让表示数据点???的簇中心,表示数据点的总数量。优化对象是最大化如下函数 ???????????????????????????????????????? 其中,右边第一项衡量每个数据点??与它对应的簇中心??之间的相似度。第二项是惩罚项,如果某个数据点??选择 数据点??作为它的簇中心 ,但是数据点?并不选择它自己作为所在簇中心,那么此时相应地惩罚项就是。 ???????????????????????????????? 对于上述相似性的衡量,通常选择两两数据点之间的负欧式距离来表示。 ???????????????????????????????????????????????? 对于负欧式距离的提法,可以理解为当得到一个依赖于簇中心的概率模型时,会被设置成点的簇中心是点???的 log-likelihood。 将数据点视为网络中的结点,上述目标函数可表示为因子图如下。 上述优化对象(函数)通常采用max-product loopy belief propagation进行求解,迭代示意图如下。 2.2 算法流程在完整的算法流程前,首先引入4个概念:similarity、preference、responsibility、availability。 1)similarity ???????similarity即相似度,?按照上述方法计算负欧氏距离作为反映数据点??与数据点 ?的相似度值,相似度值越大表示数据点??与??的距离越近,AP算法中理解为数据点? 作为数据点 ?的聚类中心的能力,作为算法的初始化矩阵,个点就有由个相似度值组成的相似度(Similarity)矩阵; 2)preference 3)responsibility 与 availability ???????? ?具体的迭代过程如下: a) 初始化时,上述?, 然后按下述规则计算出 responsibilities, ???????? b) 第一次迭代时,因为Availabilities都是0,那么,??被设置成输入的点??与候选的点?(exemplar )之间的相似度减去点??和其他候选聚类中心?之间的最大相似度。这个竞争更新过程是数据驱动的,并不考虑有多少其它的点支持每个候选聚类中心。
d) 当?时,相应地 ?被设置成??作为聚类中心的的偏好度preference的取值??减去点 ?和其它所有候选聚类中心的最大相似度。此时"self-responsibility"即??基于输入合适的preference(右边第一项)以及? 多么不适合分配给另一个聚类中心(右边第二项),来综合反映???适合?成为一个聚类中心。 e) 鉴于上面的responsibility?的更新让所有的候选簇中心竞争数据点的控制权,下面的 availibility更新从数据点积累关于是否每个候选聚类中心都会是一个好的聚类中心的判据,具体更新过程如下: ?????????????????????????????????????? availibility的取值??被设置成self-responsibility 的取值 ?加上候选的聚类中心 从其它点获得的正responsibilities的总和。只有正responsibilities是会被添加进来的,因为对于一个好的聚类中心只负责解释部分有responsibilities的数据点,而不用管有负的responsibilities的数据点。如果self-responsibility 取值是负的(表明点 目前更适合作为另一个簇中心点的支持点而不是成为一个簇中心点)。如果一些其它点支持点 作为它们的簇中心, 作为一个簇中心点的availibility能够增加,也就是相应地会取正值。上式中为了限制得到的正responsibilities的影响力,这个总和是被限定的,即它不能大于0。而 self-availability的取值 ?的更新是不一样的,具体如下: ???????????????????????????????????????????????????????????????????? 上式表明其它点传递给候选聚类中心正responsibilities 来反映点 成为一个聚类中心的积累过程。 上述更新计算要求简单,所传递的信息只在具有已知相似度之间的数据点对之间交换。在AP算法的实现过程中,任何点的availabilities和responsibilities都与定义聚类中心相关联。 f) 为防止数据震荡,引入衰减系数(damping factor),responsibilities 迭代更新时,每个responsibilities取值等于前一次迭代更新的信息值的?倍加上此轮更新值的??倍,其中在取值0-1之间,通常取0.5,即前后两次加权平均。 2.3 算法特点优点:
不足:
3.代码实现sklearn.cluster.AffinityPropagation(damping=0.5, max_iter=200, convergence_iter=15, copy=True, preference=None, affinity='euclidean', verbose=False)
4.参考文献Frey B J, Dueck D. Clustering by passing messages between data points[J]. science, 2007. |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 5:48:58- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |