IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> spss--K_means快速聚类(随笔笔记)以及和Python实现K_means聚类的比较 -> 正文阅读

[人工智能]spss--K_means快速聚类(随笔笔记)以及和Python实现K_means聚类的比较

聚类分析原理简介
聚类分析是对样品或变量进行分类的一种多元统计方法,目的在于将相似的实物归类。
聚类分析并不是一种纯粹的统计技术,在方法基础上与分布理论和显著性无关,一般不用于从样本推断总体的研究。在市场研究中,聚类分析主要用于市场细分、研究消费者行为,寻找新的潜在市场和左尾其他统计分析的预处理等。

聚类分析的基本概念
聚类(clustering)是将某个对象集划分为若干组(class或cluster)的过程,使得同一个组内的数据对象是具有较高的相似度,而不同的组中间的数据对象是不相似的,相似或者不相似的定义基于属性变量的取值确定,一般采用个对象间的距离(欧几里得距离)来表示。
聚类分析属于无监督的学习方法,它不依赖事先已知的数据分类,也不依赖标有数据类别的训练样本集合。正因为如此,聚类分析是一种通过观察的学习方法,而不是通过示例取学习规则。

思想
聚类算法就是用K_Means聚类实现的,用欧几里得距离为依据判别点之间的相似性。

  1. 如果二维平面上的一堆点要分成三类,那么首先会随机选择三个点,然后平面中所有的点都会和这三个选择的中心点求距离,离哪个点近,就划分到哪个中心点类别中,初步的标记好三个分类。

  2. 然后这三个分类再对每个分类求其质心,得出三个中心点。这个求质心的过程,是找出一个点,使得这个点到所有的点的距离最小化。因为存在无数个点使得距离最大,单总有一个点,会得到最小的距离。求出中心点后,在重新计算所有点到这三个中心点的距离,重新划分类别。

  3. 以此重复循环,最终得到划分后的类别与求得中心点后计算得到的类别没有差别,或者是距离在一定的误差范围类,即结束分类器。

用spss进行快速聚类,K_均值聚类。表格如下,删除了几个用不到的信息。
在这里插入图片描述
我们对以上表格按照salary薪资,和salbegin起始工资,划分类别。
先看一下他们的散点图分布:
在这里插入图片描述
我们把这些点分成三个类别。
在这里插入图片描述
选择保存按钮点击保存分类后的类别。
最终结果会在spss表格中保存分类的结果类别。
spss分析输出:
在这里插入图片描述
初始的聚类中心选择的三个点。

在这里插入图片描述
最终的聚类中心点,和每个类别中的数量。一类别工资高的有12个,中等工资的75人,一般工资占比最多。

最终我们绘图看一下分类的结果:
在这里插入图片描述
三角形标注的4,5,6三个点是中心点的位置。
然后我又做了另外一件事,用Python中的K_Means方法给这组数据进行分类

km2 = KMeans(n_clusters=3)
km2.fit(df1[["salary","salbegin"]])
plt.figure(figsize=(12,9))
plt.scatter(df1["salbegin"],df1["salary"],c=km2.labels_)
plt.scatter(km2.cluster_centers_[:,1],km2.cluster_centers_[:,0],c='r')
plt.grid(True)
plt.show()

在这里插入图片描述
最终得到的三个中心点也不一样。
在这里插入图片描述
Python中分得每个类别比较均匀,我执行了很多次,虽然每一次在边缘处有一两个点会摇摆,但基本差别不会太大。而且Python中选择的初始化中心点的方法是K_means++,初始化优化算法。
但是spss中的具体方法我没有查到,希望补充。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-10-16 19:38:58  更:2021-10-16 19:40:59 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 10:25:35-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码