数据科学【六】：聚类（二）

本文数据采用mnist dataset。

获得聚类中心点

使用cluster_centers_即可。
示例：将mnist数据集分为十个聚类，并绘制各个中心点。

import pandas as pd
import matplotlib.pyplot as plt

from sklearn.cluster import KMeans
from sklearn.datasets import load_digits

mnist = load_digits()


data_a = mnist.data
kmeans_a = KMeans(n_clusters = 10)
kmeans_a.fit(data_a)
from sklearn.decomposition import PCA

centers = PCA(2).fit_transform(kmeans_a.cluster_centers_)
plt.scatter(centers[:, 0], centers[:, 1])
plt.show()

在这里插入图片描述

聚类差异评价方式

我们可以使用disagree distance来评价两个聚类之间的差异。其定义为：
$C)=\Sigma _{x, y} \mathbb{I}_{P, C}(x, y)$
其中
$\mathbb{I}_{P,C}(x,y)=\left\{ \begin{aligned} 1& , 若P与C在x, y的的归属问题上不同\\ 0 & \end{aligned} \right.$
举个例子：下表为对 $x_1$ 至 $x_5$ ， $P$ , $C$ 两聚类给出的标签：

	P	C
$x_1$	1	1
$x_2$	1	2
$x_3$	2	1
$x_4$	3	3
$x_5$	3	4

对于 $x_1, x_2$ , $P$ 认为它们标签相同，均为1，而 $C$ 认为它们属不同类，因此diagree distance加上1.
对于 $x_1, x_4$ , $P$ 认为它们标签不同， $C$ 也认为它们标签不同，因此两个聚类在这两个数据上达成一致， diagree distance加上0.
示例：计算上一节进行的10分类与原标签的disagree distance

labels_b = mnist.target
labels_a = kmeans_a.labels_
disagreement_dis = 0
for i in range(len(labels_b)-1):
    for j in range(i+1, len(labels_b)):
        if (labels_a[i] == labels_a[j]) != (labels_b[i] == labels_b[j]):
            disagreement_dis += 1

print(disagreement_dis)