[人工智能] 图像算法-Yolov2

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 图像算法-Yolov2 -> 正文阅读

[人工智能]图像算法-Yolov2

内容简介

在参考了fast-RCNN和SSD算法,设计了YOLOv2，在精度上利用了一系列的训练技巧，在速度上利用了新的网络模型DarkNet19，在分类任务上采用联合训练的方法，结合wordtree等方法，使用YOLO的检测种类扩充到了上千种，作者在论文中称可以检测9000个类别的目标，所以也称为YOLO9000，该模型可以使用不同的尺寸运行，从而在速度和准确性之间提供了一个简单的折衷。

较V1版本的改进策略

YOLOv2对v1版本采取了很多的改进措施，以提高模型的mAP,如下图所示：
在这里插入图片描述
（1）Batch Normalization（批量正则化）。YOLOv2中在每个卷积层后加BatchNormalization(BN)层，去掉dropout. BN层可以起到一定的正则化效果，能提升模型收敛速度，防止模型过拟合。YOLOv2通过使用BN层使得mAP提高了2%。

（2）High Resolution Classifier（高分辨率分类器）。原来的YOLO网络在预训练的时候采用的是224224的输入（这是因为一般预训练的分类模型都是在mageNet数据集上进行的），然后在detection的时候采用448448的输入，这会导致从分类模型切换到检测模型的时候，模型还要适应图像分辨率的改变。而YOLOv2则将预训练分成两步：先用224224的输入从头开始训练网络，大概160个epoch（表示将所有训练数据循环跑160次），然后再将输入调整到448448，再训练10epoch。注意这两步都是在ImageNet数据集上操作。最后再在检测的数据集上fine-tuning，也就是detection的时候用448*448的图像作为输入就可以顺利过渡了。作者的实验表明这样可以提高几乎4%的mAP。

（3）Convolutional With Anchor Boxes（带Anchor Boxes的卷积）。 YOLOv1利用全连接层直接对边界框进行预测，导致丢失较多空间信息，定位不准。YOLOv2去掉了YOLOv1中的全连接层，使用Anchor Boxes预测边界框，同时为了得到更高分辨率的特征图，YOLOv2还去掉了一个池化层。由于图片中的物体都倾向于出现在图片的中心位置，若特征图恰好有一个中心位置，利用这个中心位置预测中心点落入该位置的物体，对这些物体的检测会更容易。所以总希望得到的特征图的宽高都为奇数。YOLOv2通过缩减网络，使用416416的输入，模型下采样的总步长为32，最后得到1313的特征图，然后对1313的特征图的每个cell预测5个anchorboxes，对每个anchor box预测边界框的位置信息、置信度和一套分类概率值。使
用anchor boxes之后，YOLOv2可以预测1313*5=845个边界框，模型的召回率由原来的81%提升到88%，mAP由原来的69.5%降低到69.2%.召回率提升了7%，准确率下降了0.3%。

（4）Dimension Clusters（维度聚类）。在Faster R-CNN和SSD中，先验框都是手动设定的，带有一定的主观性。YOLOv2采用k-means聚类算法对训练集中的边界框做了聚类分析，选用boxes之间的IOU值作为聚类指标。综合考虑模型复杂度和召回率，最终选择5个聚类中心，得到5个先验框，发现其中中扁长的框较少，而瘦高的框更多，更符合行人特征。通过对比实验，发现用聚类分析得到的先验框比手动选择的先验框有更高的平均IOU值，这使得模型更容易训练学习。

（5）New Network（新的网络）。 YOLOv2采用Darknet-19，其网络结构如下图所示，包括19个卷积层和5个max pooling层，主要采用33卷积和11卷积，这里1*1卷积可以压缩特征图通道数以降低模型计算量和参数，每个卷积层后使用BN层以加快模型收敛同时防止过拟合。最终采用global avg pool 做预测。采用
YOLOv2，模型的mAP值没有显著提升，但计算量减少了。
在这里插入图片描述

（6）直接定位预测（Direct location Prediction）。 Faster R-CNN使用anchor boxes预测边界框相对先验框的偏移量，由于没有对偏移量进行约束，每个位置预测的边界框可以落在图片任何位置，会导致模型不稳定，加长训练时间。YOLOv2沿用YOLOv1的方法，根据所在网格单元的位置来预测坐标,则Ground Truth的值介于0到 1之间。网络中将得到的网络预测结果再输入sigmoid函数中，让输出结果介于0到1之间。设一个网格相对于图片左上角的偏移量是 $c_x$ ， $c_y$ 。先验框的宽度和高度分别是 $p_w$ 和 $p_h$ ，则预测的边界框相对于特征图的中心坐标 $b_x，b_y)$ 和宽高 $b_w$ ， $b_h$ .

（7）细粒度特征（Fine-Grained Features）。 YOLOv2借鉴SSD使用多尺度的特征图做检测，提出pass through层将高分辨率的特征图与低分辨率的特征图联系在一起，从而实现多尺度检测。YOLOv2提取Darknet-19最后一个max pool层的输入，得到2626512的特征图。经过1164的卷积以降低特征图的维度，得到262664的特征图，然后经过pass through层的处理变成1313256的特征图（抽取原特征图每个22的局部区域组成新的channel，即原特征图大小降低4倍，channel增加4倍），再与13131024大小的特征图连接，变成1313*1280的特征图，最后在这些特征图上做预测。使用Fine-Grained Features，YOLOv2的性能提升了1%。\

（8）多尺度训练（Multi-Scale Training）。 YOLOv2中使用的Darknet-19网络结构中只有卷积层和池化层，所以其对输入图片的大小没有限制。YOLOv2采用多尺度输入的方式训练，在训练过程中每隔10个batches,重新随机选择输入图片的尺寸，由于Darknet-19下采样总步长为32，输入图片的尺寸一般选择32的倍数{320,352,…,608}（最小的选项是320×320，最大的是608×608。我们调整网络的尺寸并继续训练）。采用Multi-Scale Training, 可以适应不同大小的图片输入，当采用低分辨率的图片输入时，mAP值略有下降，但速度更快，当采用高分辨率的图片输入时，能得到较高mAP值，但速度有所下降。

训练过程

第一阶段：现在ImageNet分类数据集上训练Darknet-19,此时模型输入为224*224，共训练160轮。
第二阶段：将网络输入调整为448*448，继续在ImageNet分类数据集上训练细调模型，共10轮，此时分类模型top-1准确率为76.5%，而top-5准确度为93.3%
第三阶段：修改Darknet-19分类模型为检测模型，并在检测数据集上继续细调网络

模型的优缺点

（1）优点

YOLOv2使用了一个新的分类器作为特征提取部分，较多使用了33卷积核，在每次池化后操作后把通道数翻倍。网络使用了全局平均池化，把11卷积核置于3*3卷积核之间，用来压缩特征。也用了batch
normalization稳定模型训练
最终得出的基础模型就是Darknet-19，包含19个卷积层，5个最大池化层，运算次数55.8亿次，top-1图片分类准确率72.9%，top-5准确率91.2%
YOLOv2比VGG16更快，精度略低于VGG16

（2）缺点