title: matlab 误差平方和 tags: 机器学习 category: matlab
参考
http://www.tup.tsinghua.edu.cn/booksCenter/book_07680201.html#
原理
代码如下
%% 仅适用于 4 个簇的误差平方和计算
% 清除工作空间的所有变量,函数,和MEX文件
% 作用: 避免本次的运行受到之前运行的影响
clear all;
% 簇数
K = input('please input a number:');
% data: 待聚类的数据集
% 这里共有 30 条记录,每条记录含有3个特征
data=[
1702.8 1639.79 2068.74
1877.93 1860.96 1975.3
867.81 2334.68 2535.1
1831.49 1713.11 1604.68
460.69 3274.77 2172.99
2374.98 3346.98 975.31
2271.89 3482.97 946.7
1783.64 1597.99 2261.31
198.83 3250.45 2445.08
1494.63 2072.59 2550.51
1597.03 1921.52 2126.76
1598.93 1921.08 1623.33
1243.13 1814.07 3441.07
2336.31 2640.26 1599.63
354 3300.12 2373.61
2144.47 2501.62 591.51
426.31 3105.29 2057.8
1507.13 1556.89 1954.51
343.07 3271.72 2036.94
2201.94 3196.22 935.53
2232.43 3077.87 1298.87
1580.1 1752.07 2463.04
1962.4 1594.97 1835.95
1495.18 1957.44 3498.02
1125.17 1594.39 2937.73
24.22 3447.31 2145.01
1269.07 1910.72 2701.97
1802.07 1725.81 1966.35
1817.36 1927.4 2328.79
1860.45 1782.88 1875.13
];
% 此处调用预先定义好的函数,即 api
% IDX: 聚类结果
% C: 簇中心
% SUMD: 每一个样本到该簇中心的距离之和
% D: 每一个样本到各个簇中心的距离
% K: 簇个数
[IDX,C,SUMD,D] = kmeans(data,K);
% 找到每一个样本到四个聚类中心的最小距离
D=D';
minD=min(D);
% 找到属于不同簇的索引
index1 = find(D(1,:) ==min(D));
index2 = find(D(2,:) ==min(D));
index3 = find(D(3,:) ==min(D));
index4 = find(D(4,:) ==min(D));
% 找到属于不同簇的点
data1 = data(index1,:);
data2 = data(index2,:);
data3 = data(index3,:);
data4 = data(index4,:);
% 求每个簇的均值
mean1 = sum(data1,1) ./ size(data1,1);
mean2 = sum(data2,1) ./ size(data2,1);
mean3 = sum(data3,1) ./ size(data3,1);
mean4 = sum(data4,1) ./ size(data4,1);
% 求误差平方和
ESS1 = sum(sum((data1 - mean1).^2, 2))
ESS2 = sum(sum((data2 - mean2).^2, 2))
ESS3 = sum(sum((data3 - mean3).^2, 2))
ESS4 = sum(sum((data4 - mean4).^2, 2))
ESS = ESS1 + ESS2 + ESS3 + ESS4
|