提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
前言
一、什么是K近邻算法
简单地说k近邻算法采用不同特征值之间的距离方法进行分类
k-近邻算法的核心思想为:对于一个给定的训练集,当新的样本到来时,找到训练集中与新样本距离最近的k 个样本,然后查看这k个样本所属类别,并将新样本归类到这k个样本中大多数样本所属类别中
工作原理:
? ? 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据 都存在标签,及我们知道样本集中每一数据与所述分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最近似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。
二、代码展示
import numpy as np
import operator
def knn(trainData, testData, labels, k):
# 计算训练样本的行数
rowSize = trainData.shape[0]
# 计算训练样本和测试样本的差值
diff = np.tile(testData, (rowSize, 1)) - trainData
# 计算差值的平方和
sqrDiff = diff ** 2
sqrDiffSum = sqrDiff.sum(axis=1)
# 计算距离
distances = sqrDiffSum ** 0.5
# 对所得的距离从低到高进行排序
sortDistance = distances.argsort()
count = {}
for i in range(k):
vote = labels[sortDistance[i]]
count[vote] = count.get(vote, 0) + 1
# 对类别出现的频数从高到低进行排序
sortCount = sorted(count.items(), key=operator.itemgetter(1), reverse=True)
# 返回出现频数最高的类别
return sortCount[0][0]
trainData = np.array([[5, 8], [4, 1], [3, 3], [4, 4]])
labels = ['动作片', '动作片', '爱情片', '爱情片']
testData = [4, 2]
X = knn(trainData, testData, labels, 3)
print(X)
结果展示
?
参照博客链接:Python 实现 KNN(K-近邻)算法 - Max_Lyu - 博客园
总结
刚开始学习PYthon,有许多不懂的地方? 还得再接再厉呀!!!!
|