[人工智能] k-mean算法

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> k-mean算法 -> 正文阅读

[人工智能]k-mean算法

回归

聚类属于非监督学习不知道点的标签，知道标签就是监督学习。

K-means算法

clustering中的经典算法，数据挖掘十大经典算法之一
算法接受参数k；然后将事情先输入的n个数据对象划分为k个聚类以便于使获得的聚类满足：同一聚类的对象相似度高，不同类聚相似度低。
算法思想：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代更新各类中心的值，直到出现最好的聚类结果。
算法描述：

适当的选择c个类的初始中心，
在第k次迭代中对任意一个样本，求其到c的距离，将该样本归到距离最短的中心所在的类
利用均值等方法更新该类的中心值
对于所有的c个聚类中心，如果迭代更新，数据不变，保持不变，则迭代结束，否则继续迭代。

代码

import numpy as np
#设置函数 数据集，分几类 循环几次
def kmeans(x,k,maxit):
    # 获取数据的形状
    numpoint,numDim =x.shape
    # 加一类 用来存多少行 创建一个矩阵
    dataset = np.zeros((numpoint,numDim+1))
    # 从头到倒数第二列   :,表示所有
    dataset[:,:-1] =x
    # 随机选择k个中心点。随机选择k行，所有的列数都要
    centroids = dataset[np.random.randint(numpoint,size = k),:]
    centroids[:,-1] = range(1,k+1)
    #初始化中心点
    iterations = 0
    oldCentroids =None
    while not shouldStop(oldCentroids,centroids,iterations,maxit):
        print(iterations,dataset,centroids)
        #将新的中心点赋值到旧的中心点
        oldCentroids = np.copy(centroids)
        iterations +=1
        #更新重新分类
        updateLabels(dataset,centroids)
        #获得新的中心点
        centroids = getCentroids(dataset,k)
    return dataset

def shouldStop(oldCentroids,centroids,iterations,maxit):
    #到达最大次数的时候可以退出
    if iterations >maxit:
        return True
    #如果没有达到最大次数时候，看两者的中心点是否相等
    return np.array_equal(oldCentroids,centroids)
# 更新数据
def updateLabels(dataset,centroids):
    #返回数据集的形状
    numpoint,numdim = dataset.shape
    for i in range(0,numpoint):
        #比较每一行到中心点的距离，最近的点的标签返回。
        dataset[i,-1]=getLabelFromClosestCentroid(dataset[i,:-1],centroids)
#获取每一行的点到中心点的距离
def getLabelFromClosestCentroid(datasetRaw,centroids):
    #初始化中心点的位置
    label = centroids[0,-1]
    #将第一个作为最小的距离 np.linalg.norm（）函数，传入两个向量，返回值是两个向量的距离。
    minDist = np.linalg.norm(datasetRaw-centroids[0,:-1])
    #循环每一个点和中心点的距离，
    for i in range(1,centroids.shape[0]):
        dist = np.linalg.norm(datasetRaw-centroids[i,:-1])
        if dist <minDist:
            minDist = dist
            label = centroids[i,-1]
    print(minDist)
    return label
#选择新的中心点，求平均值
def getCentroids(dataset,k):
    #初始化矩阵
    result = np.zeros((k,dataset.shape[1]))
    #dataset[:,-1]==i找出最后一列，所有等于i的值找到，求其平均值
    for i in range(1,k+1):
        oneCluster = dataset[dataset[:,-1]==i,:-1]
        # axis=0取出所有值，从中取出均值按行去均值， axis=1时的时候按列取均值。
        result[i-1,:-1] = np.mean(oneCluster,axis=0)
        #
        result[i-1,-1] = i

    return result
x1 = np.array([1,1])
x2 = np.array([2,1])
x3 = np.array([4,3])
x4 = np.array([5,4])
testx = np.vstack((x1,x2,x3,x4))

result = kmeans(testx,2,10)
print(result)

结果

在这里插入图片描述

层次聚类 hierarchical clustering

假设有N个待聚类的样本，对于层次聚类来说，步骤：

初始把每个样本归为一类，计算每两个类的样本之间的距离，也就是样本之间的相似度，
寻找各类样本之间最近的两个类，把他们归为一类
重新计算新生成的这个类和其他样本的相似度
重复前面两个步骤，直到所有样本都归为一类，结束。
整个聚类过程其实时建立了一棵树，在建立过程中，可以通过第二部分的设置阈值，当最近的两个类的距离大于这个阈值，则认为迭代可以终止。另外最关键的一步就是第三步，如何判断两个类之间的相似度的方法有：
取两类中距离最近的两个样本的距离作为这两个集合的距离，也就是说最近的两个样本的距离越小，相似度就越大，
取两类中的最远的点距离作为两个集合的距离
把两个集合两两配对，一起求平均值
取两两距离的中值

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-03-21 20:50:48 更:2022-03-21 20:51:42

360图书馆购物三丰科技阅读网日历万年历 2026年4日历

-2026/4/25 4:06:22-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码