开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Yolo v4:目标检测的最佳速度和精度 -> 正文阅读

[人工智能]Yolo v4:目标检测的最佳速度和精度

《YOLOv4：Optimal Speed and Accuracy of Object Detection》

发表时间及作者：2020 CVPR

1.YOLOv4介绍

Yolov4其实并没有提出什么创新点，主要是对当时领域内的一些Tricks（WRC、CSP、CmBN、SAT、Mish激活、Mosaic数据增强，DropBlock和CIoU）进行了大量的实验，并且对模型的精度和速度进行了平衡；最终在MS COCO数据集上实现了43.5% AP (65.7% AP50)，在Tesla V100的实时速度为65帧/秒。

YOLOv4一共有如下三点贡献：

1.开发了一个高效、强大的目标检测模型。它使每个人都可以使用1080ti或2080ti GPU来训练一个非常快速和准确的目标检测器

2.验证了最先进的 Bag-of-Freebies和 Bag-of-Specials对象检测在检测器训练时的影响。

3.对现有的方法进行了改进，使其更加高效，更适合于单个GPU的训练，包括CBN，PAN，SAM等。

在这里插入图片描述

图1：YOLOv4与其他最先进的物体探测器的比较。在性能相当的情况下，YOLOv4运行速度是EfficientDet的两倍。YOLOv4将YOLOv3的AP和FPS分别提升10%和12%。

2.YOLOv4网络结构

YOLOv4结构组成如下：

? Backbone: CSPDarknet53

? Neck: SPP , PAN

? Head: YOLOv3

2.1 Backbone改进

YOLOv4借鉴了CSPNet（Cross Stage Partial Networks，跨阶段局部网络）的思想，对YOLOv3的Darknet53网络进行了改进，形成了全新的主干网路结构–CSPDarknet53；

采用CSP结构有如下几点好处：

1.加强CNN学习能力

2.删除计算瓶颈

3.减少内存成本

在这里插入图片描述

CSPNet实际上是基于Densnet的思想，即首先将数据划分成Part 1和Part 2两部分，Part 2通过dense block发送副本到下一个阶段，接着将两个分支的信息在通道方向进行Concat拼接，最后再通过Transition层进一步融合。CSPNet思想可以和ResNet、ResNeXt和DenseNet结合，目前主流的有CSPResNext50 和CSPDarknet53两种改造Backbone网络。

改进后的主干网络结构如下图所示：

请添加图片描述

2.2 Neck改进

2.2.1 SPP结构介绍

SPP-Net全称Spatial Pyramid Pooling Networks，主要是用来解决不同尺寸的特征图如何进入全连接层的，如下2图所示，下图中对任意尺寸的特征图直接进行固定尺寸的池化，来得到固定数量的特征。

在这里插入图片描述

2.2.2 PAN结构介绍

PAN（Path Aggregation Network）结构其实就是在FPN（从顶到底信息融合）的基础上加上了从底到顶的信息融合，如下图(PAN结构图)所示。

在这里插入图片描述

FPN结构图

在这里插入图片描述

PAN结构图

2.2.3 YOLOv4 PAN结构介绍

YOLOv4在原始PAN结构上进行了一点改进，如下图所示。图(a)是PAN论文中的原始融合方式，即特征层之间融合时是直接通过addition的方式进行融合的，但在YOLOv4中的PAN是通过在通道方向Concat拼接的方式进行融合的。

在这里插入图片描述

3.YOLOv4训练策略

这里首先介绍两个概念：Bag of Freebies和Bag of Specials

Bag of Freebies：指的是那些不增加模型复杂度，也不增加推理的计算量的训练方法技巧，来提高模型的准确度。目标检测经常采用的符合Bag of Freebies定义的是数据增强。数据增强的目的是增加输入图像的可变性，使所设计的目标检测模型对从不同环境中获取的图像具有更高的鲁棒性。例如，光学畸变和几何畸变是两种常用的数据增强方法，它们对目标检测有明显的好处。

Bag of Specials：指的是那些增加少许模型复杂度或计算量的训练技巧，但可以显著提高模型的准确度。一般来说，这些插件模块是为了增强模型中的某些属性，如放大感受野、引入注意机制或增强特征集成能力等。

1.Backbone采用的Bag of Freebies：

CutMix，Mosaic数据增强， DropBlock，类标签平滑

2.Backbone采用的Bag of Specials：

Mish激活函数， Cross-stage partial connections (CSP)，多输入加权残差连接(MiWRC)

3.Detector采用的Bag of Freebies：

CIoU损失，CmBN, DropBlock正则化，Mosaic数据增强，自对抗训练，消除网格敏感性，单目标使用多 Anchor,余弦退火，最优超参数，随机训练形状

4.Detector采用的Bag of Specials：

Mish激活、SPP、SAM、PAN路径聚合、DIoU-NMS

3.1BackBone训练策略

3.1.1 数据增强

在这里插入图片描述

3.1.2 DropBlock正则化

DropBlock方法的引入是为了克服Dropout随机丢弃特征的主要缺点，Dropout被证明是全连接网络的有效策略，但在特征空间相关的卷积层中效果不佳。DropBlock技术在称为块的相邻相关区域中丢弃特征。这样既可以实现生成更简单模型的目的，又可以在每次训练迭代中引入学习部分网络权值的概念，对权值矩阵进行补偿，从而减少过拟合。如下图：
在这里插入图片描述

3.1.3 类标签平滑

训练样本中会出现少量的错误样本，而模型过于相信训练样本，在训练过程中调整参数极力去逼近样本，这就导致了这些错误样本的负面影响变大，因此需要在一定程度上减缓这些错误样本的影响，使得模型避免过于相信训练样本。

消融实验结果：

表1:BoF和Mish对CSPResNeXt-50分类精度的影响。

在这里插入图片描述

表2 BoF和Mish对CSPDarknet-53分类器精度的影响。

在这里插入图片描述

表3: Bag-of-Freebies的消融研究。(CSPResNeXt50-PANet-SPP 512 x512)。

在这里插入图片描述

表4:Bag of Specials的消融实验。(Size 512 x512)。

在这里插入图片描述

4.BackBone推理策略

4.1 Mish激活函数

Mish是一个平滑的曲线，平滑的激活函数允许更好的信息深入神经网络，从而得到更好的准确性和泛化；在负值的时候并不是完全截断，允许比较小的负梯度流入。实验中，随着层深的增加，ReLU激活函数精度迅速下降，而Mish激活函数在训练稳定性、平均准确率(1%-2.8%)、峰值准确率(1.2% - 3.6%)等方面都有全面的提高。如下图：

在这里插入图片描述

4.2 MiWRC策略

MiWRC是Multi-input weighted residual connections的简称，在BiFPN中，提出了用MiWRC来执行标尺度级重加权，添加不同尺度的特征映射。我们已经讨论了FPN和PAN作为例子。下面的图(d)显示了另一种被称为BiFPN的neck设计，根据BiFPN的论文，该设计具有更好的准确性和效率权衡。

在这里插入图片描述

(a)FPN引入自顶向下的路径，将多尺度特征从3级融合到7级(P3-P7)；

(b)PANET在FPN之上增加一个额外的自下而上的路径；

?NAS-FPN使用神经网络搜索找到一个不规则的特征拓扑网络，然后重复应用同一块拓扑结构；

(d)是这里的BiFPN，具有更好的准确性和效率权衡。将该neck放到整个整个网络的连接中如下图：

在这里插入图片描述

上图采用EfficientNet作为骨干网络，BiFPN作为特征网络，共享class/box预测网络。基于不同的资源约束，BiFPN层和类/盒网层都被重复多次。

5.检测头训练策略

5.1 CIoU-loss

CIoU就是在DIoU的基础上增加了检测框尺度的loss，增加了长和宽的loss，这样预测框就会更加的符合真实框。

5.2 CmBN策略

BN：无论每个batch被分割为多少个mini batch，其算法就是在每个mini batch前向传播后统计当前的BN数据（即每个神经元的期望和方差）并进行Nomalization，BN数据与其他mini batch的数据无关。

CBN：每次iteration中的BN数据是其之前n次数据和当前数据的和（对非当前batch统计的数据进行了补偿再参与计算），用该累加值对当前的batch进行Nomalization。好处在于每个batch可以设置较小的size。

CmBN：只在每个Batch内部使用CBN的方法，若每个Batch被分割为一个mini batch，则其效果与BN一致；若分割为多个mini batch，则与CBN类似，只是把mini batch当作batch进行计算，其区别在于权重更新时间点不同，同一个batch内权重参数一样，因此计算不需要进行补偿。

在这里插入图片描述