| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> YOLO系列目标检测算法-YOLOv3 -> 正文阅读 |
|
[人工智能]YOLO系列目标检测算法-YOLOv3 |
本文总结:
专栏链接: 2018.4.8 YOLOv3:《YOLOv3: An Incremental Improvement》 1. 简介??YOLOv3在YOLOv2基础上做了一点小小的改动,网络变得稍大了一点但更加准确。 2. 主要idea2.1 边界框预测??在YOLOv2中,网络预测4个框的坐标
t
x
,
t
y
,
t
w
,
t
h
t_x,t_y,t_w,t_h
tx?,ty?,tw?,th?,如果单元格与图像左上角的偏移量为
c
x
,
c
y
c_x,c_y
cx?,cy?,先验框的宽度和高度是
p
w
,
p
h
p_w,p_h
pw?,ph?,则预测值对应于: ??YOLOv3使用逻辑回归预测每个边界框的objectness分数。如果先验框与GT目标的重叠度大于之前的任何其他边界框,则该值应为1。如果先验框不是最好的,但与GT目标的重叠度超过了设定的阈值(像Faster R-CNN一样),则忽略该预测结果,本文设置的阈值为0.5。 与Faster R-CNN不同,我们的系统只为每个GT目标分配一个先验框。如果先验框未指定给GT目标,则坐标或类预测没有loss,只有objectness有loss。 2.2 类别预测??每个框使用多标签分类预测可能包含的类。YOLOv3没有使用softmax,因为我们发现它是不必要的,而只是使用独立的逻辑分类器。在训练期间,我们使用binary cross-entropy loss (BCE Loss)进行类别预测。 ??当我们转向更复杂的领域,如Open Images Datasets时,此公式会有所帮助。在这个数据集中,有许多重叠的标签(即女性和人)。使用softmax强加了一个假设,即每个框都只有一个类,但通常情况并非如此。多标签方法可以更好地建模数据。 2.3 跨尺度预测??YOLOv3以3种不同的比例预测框。使用类似于特征金字塔网络的概念从这些尺度中提取特征。从基本特征提取器中,添加了几个卷积层,最后一个预测了三维张量编码的边界框、objectness和class。在对COCO的实验中,在每个尺度上预测了3个box,因此张量是N×N×[3?(4+1+80),用于4个边界框偏移量、1个objectness预测和80个类别预测。 ??接下来,从前面的两层中提取特征图,并将其上采样放大2倍。还从网络早期层中获取了一个特征图,并使用串联将其与上采样特征图合并。 这种方法使得从上采样的特征中获取更有意义的语义信息,并从早期的特征映射中获取更细粒度的信息。然后,再添加一些卷积层来处理这个组合的特征图,并最终预测出一个类似的张量。 ??YOLOv3再次进行相同的设计,以预测另一尺度的box。 因此,对第三尺度的预测得益于所有先前的计算以及网络早期的细粒度特征。 ??仍然使用k-means聚类来确定的先验框。只是随意选择了9个簇和3个尺度,然后在尺度上平均划分簇。在COCO数据集上,9个簇为:(10×13); (16×30); (33×23); (30×61); (62×45); (59×119); (116 × 90); (156 × 198); (373 × 326). ??下图中蓝色框为聚类得到的先验框。黄色框式ground truth,红框是对象中心点所在的网格。 2.4 特征提取网络??新设计了特征提取网络,结合YOLOv2的Darknet19和残差网络结构,新的网络使用连续的3×3和1×1卷积层,现在新增一些shortcut连接,并且模型增大了,共有53个卷积层,所以称之为Darknet-53! 2.5 训练策略??仍然使用完整的图像训练,没有使用硬负样本采用或任何其他东西。使用多尺度训练、大量的数据增强、BN以及所有标准的方法。 3. YOLOv3??YOLOv3整体的网络结构如下图所示: ??YOLOv3表现,对比结果见表3。就COCO的奇怪平均AP度量方法而言,它与SSD变体相当,但速度快了3倍。但在这种评价指标下,它仍然落后于其他像RetinaNet这样的模型。 ??过去,YOLO检测小目标表现太好。然而,现在我们看到了这一趋势的逆转。通过新的多尺度预测,可以看到YOLOv3具有相对较高的APs性能。然而,它在中型和大型目标上的性能相对较差。还需要更多的调查来弄清真相。 ??当在AP50度量上绘制精度与速度的关系图时(见图3),可以看到YOLOv3比其他检测系统有显著的优势。也就是说,它更快更好。 4. 没有work的技术??除了以上技术之外,还在YOLOv3上尝试了很多方法,很多都不起作用,这也是很重要的。
目前来说YOLOv3方案非常不错,至少看起来是局部最优的。这些技术中的一些可能最终会产生好的结果,也许它们只是需要一些调整来稳定训练。 5. 评估指标的分析??YOLOv3是一个很好的检测器,快、准确,虽然在AP0.5-AP0.95这种评价指标上不是最优的,但是在AP0.5指标上是非常好的。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 21:21:08- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |