IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> YOLO(实时目标检测)V1-V2-V3简介和细节改进 -> 正文阅读

[人工智能]YOLO(实时目标检测)V1-V2-V3简介和细节改进

深度学习经典检测方法
one-stage(一阶段)YOLO系列
核心优势:速度快,适合实时检测任务。
缺点是通常情况下效果不是太好。
在这里插入图片描述

two-stage(两阶段):Faster-rcnn Mask-Rcnn系列
速度比较慢,但是效果不错。
在这里插入图片描述

指标分析
map指标:综合衡量检测效果,不能只参考精度和recall。
在这里插入图片描述

?	[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UAGBq7br-1664176911500)(YOLO.assets/image-20220926093032757.png)]

P(Positive)和N(Negative) 表示模型的判断结果
T(True)和F(False) 表示模型的判断结果是否正确

FP:假正例 FN:假负例 TP:真正例 TN:真负例

准确率(Accuracy):这三个指标里最直观的就是准确率: 模型判断正确的数据(TP+TN)占总数据的比例
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ksqjoup1-1664176911501)(YOLO.assets/image-20220926093730566.png)]
召回率(Recall): 针对数据集中的所有正例(TP+FN)而言,模型正确判断出的正例(TP)占数据集中所有正例的比例.FN表示被模型误认为是负例但实际是正例的数据.召回率也叫查全率,以物体检测为例,我们往往把图片中的物体作为正例,此时召回率高代表着模型可以找出图片中更多的物体!
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-z7EJJ50q-1664176911502)(YOLO.assets/image-20220926093737810.png)]
精确率(Precision):针对模型判断出的所有正例(TP+FP)而言,其中真正例(TP)占的比例.精确率也叫查准率,还是以物体检测为例,精确率高表示模型检测出的物体中大部分确实是物体,只有少量不是物体的对象被当成物体
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Cxh59ai6-1664176911503)(YOLO.assets/image-20220926093743477.png)]
区分好召回率和精确率的关键在于:针对的数据不同,召回率针对的是数据集中的所有正例,精确率针对的是模型判断出的所有正例
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Bwxb68qr-1664176911504)(YOLO.assets/image-20220926093906912.png)]
在这里插入图片描述
YOLO-V1
经典的one-stage方法
You Only Look Once
把检测问题转化为回归问题,一个CNN搞定
可以对视频进行实时检测,应用领域广。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bH9jSiqg-1664176911505)(YOLO.assets/image-20220926094719177.png)]

核心思想
在这里插入图片描述

网络架构
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2UAk3M76-1664176911506)(YOLO.assets/image-20220926095638854.png)]

在这里插入图片描述

损失函数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Q263Yp7n-1664176911507)(YOLO.assets/image-20220926101048949.png)]

NMS(非极大值抑制)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6rGOG2ZQ-1664176911507)(YOLO.assets/image-20220926102049874.png)]

YOLO-V1存在的问题
每个Cell只预测一个类别,如果重叠无法解决。
小物体检测效果一般,长宽比可选的但单一。
YOLO-V2

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dSGeI46t-1664176911508)(YOLO.assets/image-20220926102523255.png)]
舍弃Dropout,卷积后全部加入Batch Normalization
网络的每一层的输入多做了归一化,收敛相对更容易
经过Batch Normalization 处理后的网络会提升2%的mAP
从现在角度看,Batch Normalization已经成为网络必备处理
V1训练时候用的224 * 224,测试时使用448 * 448
可能导致模型水土不服,V2训练时额外又进行了10次448 * 448的微调
使用高分辨率分类器后,YOLOV2的mAP提升了4%

V2网络结构
DarkNet,实际输入为416 * 416
没有FC层,5次降采样,(13 * 13)
1 * 1卷积节省了很多参数
在这里插入图片描述

聚类提取先检框
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NVSb06ay-1664176911509)(YOLO.assets/image-20220926103435572.png)]
偏移量计算方法

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HJ00vSgD-1664176911509)(YOLO.assets/image-20220926104816565.png)]在这里插入图片描述

坐标映射与还原

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sNPQZVrQ-1664176911511)(YOLO.assets/image-20220926105106602.png)]

感受野的作用
概述来说就是特征图上的点能看到原始图像多大区域
?	[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d8cJGXDo-1664176911511)(YOLO.assets/image-20220926105324013.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V1BYPDEy-1664176911512)(YOLO.assets/image-20220926145109958.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0ZfbqK9y-1664176911513)(YOLO.assets/image-20220926145141743.png)]

特征融合改进
最后一层时感受野太大了,小目标可能丢失了,需融合之前的特征。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DGyZa766-1664176911514)(YOLO.assets/image-20220926145446355.png)]
在这里插入图片描述

YOLO-V3

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MTiiMEj7-1664176911515)(YOLO.assets/image-20220926145756870.png)]
V3最大的改进就是网络结构,使其更适合小目标检测
特征做的更细致,融入多持续特征图信息来预测不同规格物体
先验框更丰富,3种scale,每种三个规格,一共9种
softmax改进,预测多标签任务

多scale方法改进与特征融合

为了能检测到不同大小的物体,设计了3个scale
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o2NJfoDO-1664176911516)(YOLO.assets/image-20220926150125749.png)]
经典变换方法对比分析
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FZsMCKfp-1664176911517)(YOLO.assets/image-20220926150523771.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zgxxfY3C-1664176911518)(YOLO.assets/image-20220926150544542.png)]
残差连接方法

残差连接 - 为了更好的特征,基本上所有的网络架构都用上了残差连接的方法
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mKJlPLb3-1664176911518)(YOLO.assets/image-20220926150712859.png)]

核心网络架构

没有池化和全连接层,全部卷积
下采样通过stride为2实现
3种scale,更多先验框
基本上当下经典做法全融入了
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A2tV5M1S-1664176911519)(YOLO.assets/image-20220926151337802.png)]
在这里插入图片描述
先验框设计改进

YOLO-V2中选了5个,V3有9个
在这里插入图片描述
softmax层改进

物体检测任务中可能一个物体有多个标签
logistic激活函数来完成,这样就能预测每一个类别是/不是
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XlJa0vdG-1664176911520)(YOLO.assets/image-20220926151925578.png)]

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-30 00:52:59  更:2022-09-30 00:53:51 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 22:51:42-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码