一、图像卷积

1.卷积

左边的图是（7,7,1）的原图，中间的是3*3的kernel，从左上角开始，把和kernel同等大小的原图的像素，和kernel的元素，对应元素相乘，并把乘积结果相加，得到一个结果，这个过程就是卷积。

如果图片不是单通道而是三通道RGB，即(7, 7, 3)，那么卷积核也是三通道，即(3,3,3)。即使卷积核是三通道了，最终卷积结果依旧是(5, 5, 1)，因为每计算一次，三个通道的结果均是(5, 5, 1)，这三个结果相加，还是(5, 5, 1)。

上面使用一个kernel计算一次，就生成了一张(5, 5, 1)的feature map，如果我们使用256个kernel，那么就拼接起来，生成(5, 5, 256)的feature map。

2.卷积参数

padding: 在原图的最外层补0，如果对(7, 7, 1)的外围增加一圈0，那么用3*3的卷积核卷积完以后，得到的是(7, 7, 1)，也就是和原图大小一致了。

stride步长：如果stride=1，就是每卷积一次，就向右移动stride=1个位置，那么最终是从(7, 7, 1)生成(5, 5, 1)的feature map。

根据下面的计算，可以直接算出生成的特征图feature map的尺寸。

3.(1,1)卷积核

灵活降维和升维。比如原来是(28,28,256)，那么使用(1,1,256)的卷积核，使用几个卷积核，就会输出几维，比如使用100个，就是(1,1,256,100)，卷积后就得到了(28,28,100)。

好处1：减少参数量

在得到同样维度的结果的基础上，能极大地减少参数量。如下图所示。

?好处2：能代替全连层

下面的第一次卷积，是直接使用4096个(7,7,512)的卷积核，和原来的(7,7,512)进行全局卷积，得到(1,1,4096)，再使用1000个(1,1,4096)进行卷积，就得到了（1,1,1000）的结果。全连接层的方式，和卷积的方式参数一样，因此全连接层就是一种全局的卷积。

二、yolov4的卷积设计理念

yolov4的输出需要包含的信息有：物体的位置信息、有物体的概率、物体的分类，可以写为：（tx, ty, tw, th, obj, cls），其中前四个是物体的位置信息，最后一个cls，根据分类的类别数，维度不同，如果只有1个类别，那就只占1个位置，如果是2个类别，就是2个位置，使用one-hot编码。

而在实际的yolov4的最终输出之前，也就是下面的黄色部分，是（19,19,1024），通过蓝色的18个(当只有1个分类类别的时候，如果有2个，那就是19个卷积核)1*1*1024的卷积核，得到（19,19,18），最后reshape成（3,19,19,tx, ty, tw, th, obj, cls）。

后面的是检测的物体信息，而前面的（3,19,19）的理解如下：

19*19个特征点，等同于把原图分成了19*19个网格，原图的输入是608*608的，那么每一个网格的大小就是608/19=32，每一个特征点只关注对应的网格，判断对应的网格是否有物体。

每个网格预先生成3个先验框，来满足不同尺寸的目标。先验框是根据数据的分布，人为指定的，比如使用k均值聚类的方法。而最前面的3，包含三个数字，分别代表的是：①哪个先验框更适合此物体（通过IOU得到），②物体x轴的位置，③物体y轴的位置

比如下面的物体是人，他在实际图中的网格位置是（4,3），而我们的先验框有3个，标号分别是0,1,2，并且0号框最适合这个人，因此对于（4,3）这个位置的网格的输出就是（0,4,3,tx, ty, tw, th, obj, cls），如果是训练好的模型，那么可能是（0,4,3,tx, ty, tw, th, 0.95, 0.98），如果是真实标签，那么这里的标签就是（0,4,3,tx, ty, tw, th, 1, 1），对于剩下的19*19-1个网格也是一样的。

这里面tx, ty, tw, th是相对于先验框的中心点的宽和高的变化量。训练的时候，对于其他的没有物体的位置的网格，物体相关信息全部赋值为0：（: ,: ,:, (0,0,0,0,0,0)）