IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> k-mean算法 -> 正文阅读

[人工智能]k-mean算法

回归

聚类属于非监督学习 不知道点的标签,知道标签就是监督学习。

K-means算法

clustering中的经典算法,数据挖掘十大经典算法之一
算法接受参数k;然后将事情先输入的n个数据对象划分为k个聚类以便于使获得的聚类满足:同一聚类的对象相似度高,不同类聚相似度低。
算法思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代更新各类中心的值,直到出现最好的聚类结果。
算法描述:

  • 适当的选择c个类的初始中心,
  • 在第k次迭代中对任意一个样本,求其到c的距离,将该样本归到距离最短的中心所在的类
  • 利用均值等方法更新该类的中心值
  • 对于所有的c个聚类中心,如果迭代更新,数据不变,保持不变,则迭代结束,否则继续迭代。

代码

import numpy as np
#设置函数 数据集,分几类 循环几次
def kmeans(x,k,maxit):
    # 获取数据的形状
    numpoint,numDim =x.shape
    # 加一类 用来存多少行 创建一个矩阵
    dataset = np.zeros((numpoint,numDim+1))
    # 从头到倒数第二列   :,表示所有
    dataset[:,:-1] =x
    # 随机选择k个中心点。随机选择k行,所有的列数都要
    centroids = dataset[np.random.randint(numpoint,size = k),:]
    centroids[:,-1] = range(1,k+1)
    #初始化中心点
    iterations = 0
    oldCentroids =None
    while not shouldStop(oldCentroids,centroids,iterations,maxit):
        print(iterations,dataset,centroids)
        #将新的中心点赋值到旧的中心点
        oldCentroids = np.copy(centroids)
        iterations +=1
        #更新重新分类
        updateLabels(dataset,centroids)
        #获得新的中心点
        centroids = getCentroids(dataset,k)
    return dataset

def shouldStop(oldCentroids,centroids,iterations,maxit):
    #到达最大次数的时候可以退出
    if iterations >maxit:
        return True
    #如果没有达到最大次数时候,看两者的中心点是否相等
    return np.array_equal(oldCentroids,centroids)
# 更新数据
def updateLabels(dataset,centroids):
    #返回数据集的形状
    numpoint,numdim = dataset.shape
    for i in range(0,numpoint):
        #比较每一行到中心点的距离,最近的点的标签返回。
        dataset[i,-1]=getLabelFromClosestCentroid(dataset[i,:-1],centroids)
#获取每一行的点到中心点的距离
def getLabelFromClosestCentroid(datasetRaw,centroids):
    #初始化中心点的位置
    label = centroids[0,-1]
    #将第一个作为最小的距离 np.linalg.norm()函数,传入两个向量,返回值是两个向量的距离。
    minDist = np.linalg.norm(datasetRaw-centroids[0,:-1])
    #循环每一个点和中心点的距离,
    for i in range(1,centroids.shape[0]):
        dist = np.linalg.norm(datasetRaw-centroids[i,:-1])
        if dist <minDist:
            minDist = dist
            label = centroids[i,-1]
    print(minDist)
    return label
#选择新的中心点,求平均值
def getCentroids(dataset,k):
    #初始化矩阵
    result = np.zeros((k,dataset.shape[1]))
    #dataset[:,-1]==i找出最后一列,所有等于i的值找到,求其平均值
    for i in range(1,k+1):
        oneCluster = dataset[dataset[:,-1]==i,:-1]
        # axis=0取出所有值,从中取出均值按行去均值, axis=1时的时候按列取均值。
        result[i-1,:-1] = np.mean(oneCluster,axis=0)
        #
        result[i-1,-1] = i

    return result
x1 = np.array([1,1])
x2 = np.array([2,1])
x3 = np.array([4,3])
x4 = np.array([5,4])
testx = np.vstack((x1,x2,x3,x4))

result = kmeans(testx,2,10)
print(result)




结果

在这里插入图片描述

层次聚类 hierarchical clustering

假设有N个待聚类的样本,对于层次聚类来说,步骤:

  • 初始把每个样本归为一类,计算每两个类的样本之间的距离,也就是样本之间的相似度,

  • 寻找各类样本之间最近的两个类,把他们归为一类

  • 重新计算新生成的这个类和其他样本的相似度

  • 重复前面两个步骤,直到所有样本都归为一类,结束。
    整个聚类过程其实时建立了一棵树,在建立过程中,可以通过第二部分的设置阈值,当最近的两个类的距离大于这个阈值,则认为迭代可以终止。另外最关键的一步就是第三步,如何判断两个类之间的相似度的方法有:

  • 取两类中距离最近的两个样本的距离作为这两个集合的距离,也就是说最近的两个样本的距离越小,相似度就越大,

  • 取两类中的最远的点距离作为两个集合的距离

  • 把两个集合两两配对,一起求平均值

  • 取两两距离的中值

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-21 20:50:48  更:2022-03-21 20:51:42 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 13:31:32-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码