IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 目标检测算法之YOLOV3 -> 正文阅读

[人工智能]目标检测算法之YOLOV3

本博客中YOLO系列均为个人理解笔记,欢迎评论指出理解有误或者要讨论的地方

YOLOV3模型相比于v2来说,实质性的改进并不大,更多的是一些技术的堆叠。其并不像yolov2对于v1一样,由巨大的改变和提升。

其相对于yolov2,改变在于:
1) Yolov3模型骨干网络发生了改变。在这里插入图片描述
其并没有继续用v2的骨干网络DarkNet-19,而是改变为了Darknet-53.而网络深度增加也对提升效果做出了贡献。
注意:我们发现拥有152层的resnet效果还不如53层的darknet-53??其实对比两个模型我们可以发现,两个模型大体上类同,区别就在于resnet中实现了最大池化下采样操作,而在本backbone中没有用,不知道是不是这个原因??

2)在YOLOV2中,作者对v1中每个特征方格预测2个框的方法进行了修改,用聚类的方法确定scale和比例尺寸,由此来决定每个特征方格预测多少框。但是在v3中,仍然采用1:1,1:2,2:1三种尺寸来预测三个框。

看完改变后,下面看v3的整体结构图:在这里插入图片描述
V3网络一共会产生三个特征输出层,对应尺寸分别是13,26,52. 然后不同尺寸的特征层可以对应预测不同大小的目标,大的自然预测小目标,小的自然预测大目标。在上面每一个像素点上生成 3 * (4 + 1 + 80) 因为coco数据集是80类别的。
在这里插入图片描述

最终是根据1*1卷积层来生成预测输出的。将该卷积依次划过每一块方格,都会生成3种比例的anchor。但是,要记得,此时输出的四维回归参数不是和faster rcnn或者ssd一样,相对于anchor的偏移量,而是相对于该方格左上角的偏移量,因此在最终位置预测公式上,需要做出相对修改。这和v2是一致的。

有了模型架构,也知道最终生成多少框,那么我们现在要计算损失,就需要正负样本,V2,V3中正负样本的选择:
在这里插入图片描述

1)我们计算生成的框和真实框的IOU值,大于某一阈值的作为正样本待选样本
2)看物体中心点在哪个方框内,那么这个方框内的三种anchor谁的IOU大于阈值,谁就是正样本。
其实也可以看作,先看物体中心点属于哪一个方格,然后看该方格的三个anchor框与物体的IOU值,大于阈值的都是正样本。

v2v3中损失的计算:
和v1一样,由三部分组成。置信度损失,类别损失,回归参数损失,但是计算方法可大不相同。
在这里插入图片描述

1)置信度损失,这个其就是二至交叉熵损失函数
在这里插入图片描述
2)类别损失 也是二值交叉熵损失
在这里插入图片描述
3)回归参数损失 这个就需要根据我们公式,计算原理一致,但是公式稍稍不同,因为这里CX和cy不是anchor的原坐标,而是方格左上角坐标,所以还是减一下,得到真实偏差,然后和预测偏差做loss 均方误差 MSE
在这里插入图片描述

到这里,v3的重点就结束了,其实对于一个模型来说,我们最基本要知道和明白的就是:模型的结构,模型输入什么,模型输出什么,怎么选择正负样本计算loss,如何计算loss。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-22 18:36:57  更:2022-04-22 18:41:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 10:36:34-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码