KNN: KNN(K-Nearest Neighbor)是最简单的机器学习算法之一,可以用于分类和回归,是一种监督学习算法。它的思路是这样,如果一个样本在特征空间中的K个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。也就是说,该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
K值的选择:对于K值的选择,一般根据样本分布选择一个较小的值,然后通过交叉验证来选择一个比较合适的最终值;当选择比较小的K值的时候,表示使用较小领域中的样本进行预测,训练误差会减小,但是会导致模型变得复杂,容易过拟合;当选择较大的K值的时候,表示使用较大领域中的样本进行预测,训练误差会增大,同时会使模型变得简单,容易导致欠拟合;?距离的度量:一般使用欧氏距离(欧几里得距离);?决策规则:在分类模型中,主要使用多数表决法或者加权多数表决法;在回归模型中,主要使用平均值法或者加权平均值法
KNN模型分为等权和加权模型:
等权模型:每每个相邻的节点之间的距离算作等距
'''
import numpy as np
import pandas as pd
##初始化训练数据
T = [[3, 104, -1],
[2, 100, -1],
[1, 81, -1],
[101, 10, 1],
[99, 5, 1],
[98, 2, 1]
]
##预测数据
x_test = [18, 90]
##邻居
K = 5
###列表 [[dis1,标签1],[dis2,标签2].。。。。。。]
listdistance = []
##循环每一个数据,计算他的dis
for t in T: ## t是每条电影的数据
dis = np.sum((np.array(t[:-1]) - np.array(x_test)) ** 2) ** 0.5
listdistance.append([dis, t[-1]])
# print(listdistance)
##按照dis进行排序
listdistance.sort()
# print(listdistance)
##选取K个邻居放入投票箱
# print(listdistance[:K])
arr = np.array(listdistance[:K])[:, -1]
print(arr)
##统计投票
a = pd.Series(arr).value_counts()
print(a)
pre = a.idxmax()
print(pre)
[-1. -1. -1. 1. 1.]
-1.0 3
1.0 2
dtype: int64
-1.0
进程已结束,退出代码为 0
加权分类
import numpy as np
# ## KNN加权投票--分类
# #初始化数据
T = [
[3, 104, -1],
[2, 100, -1],
[1, 81, -1],
[101, 10, 1],
[99, 5, 1],
[98, 2, 1]]
# #初始化待测样本
x = [18, 90]
# x = [3,104]
# x = [50, 50]
# #初始化邻居数
K = 3
# #初始化存储距离列表[[距离1,标签1],[距离2,标签2]....]
listDistance = []
# #循环每一个数据点,把计算结果放入dis
for i in T:
dis = np.sum((np.array(i[:-1]) - np.array(x)) ** 2) ** 0.5 ##欧氏距离
listDistance.append([dis, i[-1]])
# #对dis按照距离排序
listDistance.sort()
print(listDistance)
weight = [1/i[0] for i in listDistance[:K]]
print(weight)
weight /= sum(weight)
print(weight)
pre = -1 if sum([1 / i[0] * i[1] for i in listDistance[:K]]) < 0 else 1
print(pre)
[-1. -1. -1. 1. 1.]
-1.0 3
1.0 2
dtype: int64
-1.0
进程已结束,退出代码为 0
|