一、KNN算法原理 KNN(K-nearst neighbors)算法,又叫K近邻算法,它是一种有监督学习的机器学习算法。对新的实例,依据给定的距离公式(二维空间一般采用欧氏距离),根据其k个最近邻的训练实例的类别,通过多数表决的方式进行预测。意思就是说每个样本都可以用它最接近的k个邻居来代表。 原理如图: 原理:图中的数据集都已经分好了类,即打好了标签,一类是橙色的三角形,一类是蓝色的圆形,中间的六角形是待分类的数据 1.如果K=5,那么离六边形最近的有三个三角形和两个圆形,因为三个三角形占优势,依据多数投票法,中间的六边形就属于橙色的三角形一类。 2.如果K=7,那么离六边形最近的有三个三角形和四个圆形,因为四个圆形占优势,依据多数投票法,中间的六边形就属于蓝色的圆形一类。(KNN最基本的原理) 主要缺点:当样本数量较少时,我么可以使用遍历所有样本的方式,找出最近的k的邻居。然而,如果数据集庞大,这种方式会造成大量的时间开销。由此引入KD-Tree(KD树)方法,来选择k个邻居
二、构建KD树 KD树(KD-Tree)是一个二叉树,构建KD树步骤如下(假设样本具有n个特征): 1.分别计算n个特征的方差,选择方差最大的一个特征(假设方差为a)。 2.对特征a,计算其 中位数值median,以该值作为样本划分点(根节点)。 3.针对样本集中的其他数据,根据特征a进行划分,所有小于median的样本划分在左子树中,所有大于median的样本划分到右子树中。 4.分别对左右子树递归进行以上步骤,知道左右子树的样本数量不超过leaf_size指定的数量为止。 原理: 1.给定以下数据,构建KD树 (2,3) (5,4) (9,6) (4,7) (8,1) (7,2)
最终得出以下二叉树: 2邻居选择 先将二叉树转化到二维空间中
以(2,4.5)为样本选择邻居。 步骤: 1.将待测样本插入到KD-Tree中,使得该待测样本成为KD-Tree的一个子叶子节点。 2.在插入的过程中,会依次遍历KD-Tree的若干个节点,将遍历的节点依次压入堆栈中。 3.同时,遍历的过程中,会依次计算待测样本与每个遍历节点的距离,并保存最短的距离。 如图:
4.以待测样本为圆心,以最短路径为半径,进行画圆,得出一个超球体【画圆的目的是为圈定我们寻找最近距离样本的范围,也就是说,如果存在更近距离的样本,则该样本一定在超球体的内部】 5.从栈中依次弹出之前的样本节点,然后检查超球体是否与该样本节点的分界线相交。如果相交,则说明在该分界线的另外一侧,有可能存在一个距离待测样本更近的样本【待测样本一定位于分界线的一侧,如果球体与分界线相交,则说明分界线的另一侧,一定有部分区域位于超球体的内部,则说明就有可能存在一个样本,距离待测样本的距离更近。】 6.一但超球体以样本的分界线相交,则我们就需要去遍历分界线的另外一侧(遍历分界线样本的另外一颗子树)。【该过程是有个递归的过程,相当于流程回到第1步骤,只是此时的KD-Tree不再是所有样本构成的KD-Tree,而是另外一颗子树构成的KD-Tree。】
星号为待测样本点
|