前言

为了对算法有更好的理解，在对代码进行解读的同时我会对其它yolo算法以及其它目标检测算法进行一个简单的解读。滑动窗口卷积是传统的目标检测算法。

从简单的二分类说起

假设我们现在有一张图片

我们的任务是判断这张图片里有没有车，如果有车就输出1，没有则输出0。将这张图片作为输入，给到卷积神经网络里，网络会自动地抽取特征，通过不断的迭代下降，最终达到收敛，从而可以识别这是不是一辆车。这样的任务里通常要识别的物体占据了图片的大部分。

多分类任务

在二分类任务里我们只有一个类别，可以很简单地实现，那我们如果有多个类别呢。拿CIFAR10数据集来说（CIFAR-10 and CIFAR-100 datasets），一共有十个类别，我们怎么做呢。很简单，我们只需要改一下输出的向量，如果有十个类别，那么我们的输出向量就是十维的，得到这个十维向量后，算一下softmax再取数值最大的那个。在这里我们实际上算的是当前输入图片是这个类别的概率，二分类任务也是一样的，只不过是只有一个向量而不需要取最大的那个。

带位置的分类任务

现在我们的需求进一步提高，我们不仅要识别图片的类别是车，并且我们还要获取这辆车在图片中的位置

我们用这样一个方框来代表车的位置，这样的一个方框的表示形式有很多，可以是左上角和右下角的坐标，也可以是中心坐标以及宽高，这里我们采用后者来表示这个车的位置。

也就是现在我们需要输出这样一个向量(p,x,y,w,h)，其中p是置信度，x和y是中心点的位置，w和h是方框的宽和高。当c大于0.5时，我们可以判断这张图片的类别，并且可以得到这辆车在图片中的位置。

多类别检测

和多分类任务一样，现在需要检测的类别不止一个

?如这样一张图，图片里不仅有狗还有猫

我们要识别出狗和猫的类别，并且能识别出它们各自的位置。

在单一类别任务中，我们的输出向量是(p,x,y,w,h)，那么有多个类别时，我们还要输出它的类别，假设有20个类别，我们需要一个20维的向量，为1的就是当前判断的类别，这也就是one hot表示方法。那么我们的输出就变成了(p,x,y,w,h,c)，?c是一个one hot向量，维度是20，代表了识别出的类别。

问题又来了，我们是要对一张图片同时输出猫和狗，而不是只输出猫或只输出狗，只用上面的25维的向量无法表示。在这张图片里有两个类别，那么我们只要输出两个25维的向量就可以解决问题了，那当图片里有3个类别，四个类别呢？还有一个问题，当图片里同一类别的个数超过一个又要怎么解决？