前言

提示：参考书籍《机器学习实战》

一、KNN的工作原理及优缺点？

K近邻算法工作原理：（符合基本分类和回归）
存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中的每一数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中的数据对应的特征进行比较，然后算法提取样本集中特征最相似的数据(最近邻)的分类标签。
在这里插入图片描述
如上图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。这也就是我们的目的，来了一个新的数据点，我要得到它的类别是什么？好的，下面我们根据k近邻的思想来给绿色圆点进行分类。
**1.**如果K=3，绿色圆点的最邻近的3个点是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。
**2.**如果K=5，绿色圆点的最邻近的5个邻居是2个红色三角形和3个蓝色的正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。

生活中的KNN：约会网站，约会网站会根据你曾交往的类型推荐你可能喜欢的人等。。

二、手写数字识别

1.引入代码

def img2vector(filename):
returnVect = zeros((1,1024))
fr = open(filename)
for i in range(32):
lineStr = fr.readline()
for j in range(32):
returnVect[0,32*i+j] = int(lineStr[j])
return returnVect

2.写入KNN.PY

在这里插入图片描述

3.输入测试img2vector函数

在这里插入图片描述

4.引入代码

def handwritingClassTest():
hwLabels = []
trainingFileList = listdir(‘trainingDigits’) #load the training set
m = len(trainingFileList)
trainingMat = zeros((m,1024))
for i in range(m):
fileNameStr = trainingFileList[i]
fileStr = fileNameStr.split(’.’)[0] #take off .txt
classNumStr = int(fileStr.split(’’)[0])
hwLabels.append(classNumStr)
trainingMat[i,:] = img2vector(‘trainingDigits/%s’ % fileNameStr)
testFileList = listdir(‘testDigits’) #iterate through the test set
errorCount = 0.0
mTest = len(testFileList)
for i in range(mTest):
fileNameStr = testFileList[i]
fileStr = fileNameStr.split(’.’)[0] #take off .txt
classNumStr = int(fileStr.split(’’)[0])
vectorUnderTest = img2vector(‘testDigits/%s’ % fileNameStr)
classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)
print “the classifier came back with: %d, the real answer is: %d” % (classifierResult, classNumStr)
if (classifierResult != classNumStr): errorCount += 1.0
print “\nthe total number of errors is: %d” % errorCount
print “\nthe total error rate is: %f” % (errorCount/float(mTest))