什么是KNN算法
KNN算法,即K邻近算法,根据已知的数据样本排序,取得最靠近待预测样本的前K个已知数据样本的目标值,作为待预测样本的目标值,是一种监督式的学习方式。 (大白话:根据邻居来推断类别)
实例:用KNN实现鸢尾花分类
案例说明: 数据集为Iris鸢尾花图片数据集,本算法通过KNN(K邻近算法)对鸢尾花进行分类,并计算最终的准确率。
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
def dnn_iris():
'''用KNN算法对鸢尾花分类'''
iris = load_iris()
x_train,x_test,y_train,y_test = train_test_split(iris.data, iris.target, random_state=6)
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)
estimator = KNeighborsClassifier(n_neighbors=3)
estimator.fit(x_train,y_train)
score = estimator.score(x_test,y_test)
print(score)
return None
if __name__ == '__main__':
print('KNN算法进行鸢尾花分类')
dnn_iris()
算法注意的细节
1、K的选取
(1)k过大–>会出现样本不均衡带来的影响 (2)k过小–>会出现样本异常值带来的影响
2、消除量纲所选取的方法
(1)标准化–>(x-μ)/σ (2)归一化–>(x-min)/(max-min) 在本算法中选取标准化来消除量纲影响,原因是,归一化方法可能会出现异常值的影响。
3、如何衡量样本邻近
(1)欧氏距离 样本的各个指标的差平方之和再开方 (2)曼哈顿距离 样本的各个指标的差的绝对值之和 在本算法中选取欧氏距离来衡量样本间的距离
4、时间复杂度
O(NT),其中N为数据量,T为迭代轮数,因此当T=1时,时间复杂度为O(N)。另外,距离排序算法时间复杂度为O(NlogN)。
说明:个人学习使用,参考视频链接为https://www.bilibili.com/video/BV1nt411r7tj?p=21&spm_id_from=pageDriver
|