[人工智能] 机器学习之KNN算法（KD Tree方法）

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 机器学习之KNN算法（KD Tree方法） -> 正文阅读

[人工智能]机器学习之KNN算法（KD Tree方法）

一、KNN算法原理
KNN（K-nearst neighbors）算法，又叫K近邻算法，它是一种有监督学习的机器学习算法。对新的实例，依据给定的距离公式(二维空间一般采用欧氏距离)，根据其k个最近邻的训练实例的类别，通过多数表决的方式进行预测。意思就是说每个样本都可以用它最接近的k个邻居来代表。
原理如图：
在这里插入图片描述
原理：图中的数据集都已经分好了类，即打好了标签，一类是橙色的三角形，一类是蓝色的圆形，中间的六角形是待分类的数据
1.如果K=5，那么离六边形最近的有三个三角形和两个圆形，因为三个三角形占优势，依据多数投票法，中间的六边形就属于橙色的三角形一类。
2.如果K=7，那么离六边形最近的有三个三角形和四个圆形，因为四个圆形占优势，依据多数投票法，中间的六边形就属于蓝色的圆形一类。(KNN最基本的原理)
主要缺点：当样本数量较少时，我么可以使用遍历所有样本的方式，找出最近的k的邻居。然而，如果数据集庞大，这种方式会造成大量的时间开销。由此引入KD-Tree(KD树)方法，来选择k个邻居

二、构建KD树
KD树（KD-Tree）是一个二叉树，构建KD树步骤如下(假设样本具有n个特征)：
1.分别计算n个特征的方差，选择方差最大的一个特征(假设方差为a)。
2.对特征a，计算其中位数值median,以该值作为样本划分点(根节点)。
3.针对样本集中的其他数据，根据特征a进行划分，所有小于median的样本划分在左子树中，所有大于median的样本划分到右子树中。
4.分别对左右子树递归进行以上步骤，知道左右子树的样本数量不超过leaf_size指定的数量为止。
原理：
1.给定以下数据，构建KD树 (2,3) (5,4) (9,6) (4,7) (8,1) (7,2)
在这里插入图片描述

在这里插入图片描述
最终得出以下二叉树：

2邻居选择
先将二叉树转化到二维空间中

以（2,4.5）为样本选择邻居。
步骤：
1.将待测样本插入到KD-Tree中，使得该待测样本成为KD-Tree的一个子叶子节点。
2.在插入的过程中，会依次遍历KD-Tree的若干个节点，将遍历的节点依次压入堆栈中。
3.同时，遍历的过程中，会依次计算待测样本与每个遍历节点的距离，并保存最短的距离。
如图：

在这里插入图片描述
4.以待测样本为圆心，以最短路径为半径，进行画圆，得出一个超球体【画圆的目的是为圈定我们寻找最近距离样本的范围，也就是说，如果存在更近距离的样本，则该样本一定在超球体的内部】
5.从栈中依次弹出之前的样本节点，然后检查超球体是否与该样本节点的分界线相交。如果相交，则说明在该分界线的另外一侧，有可能存在一个距离待测样本更近的样本【待测样本一定位于分界线的一侧，如果球体与分界线相交，则说明分界线的另一侧，一定有部分区域位于超球体的内部，则说明就有可能存在一个样本，距离待测样本的距离更近。】
6.一但超球体以样本的分界线相交，则我们就需要去遍历分界线的另外一侧(遍历分界线样本的另外一颗子树)。【该过程是有个递归的过程，相当于流程回到第1步骤，只是此时的KD-Tree不再是所有样本构成的KD-Tree，而是另外一颗子树构成的KD-Tree。】