[人工智能] Yolov1

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Yolov1 -> 正文阅读

[人工智能]Yolov1

一阶段检测：
yolov1: 第一次尝试
yolov2: Anchor,Loss
yolov3: FPN
yolov4: 技巧
RetinaNet: Focal Loss
其他：ssd

yolov1:
1, 把一张图片分成S*S个cell [448*448->7*7]
如果某个物体中心落在某个cell的中心，那么这个cell负责预测这个物体。
如果多个物体的中心落在同一个cell中，就没办法。

2，每一个cell预测B个bounding box:
bounding box: x,y,w,h(center)
confidence: Pr(object)*IoU(truth, pred)
final output tensor:S*S*(5*B+C)
yolov1的S是7，B是2，C是20,5代表x,y,w,h,confidence.
S是filter size, B是bounding box个数，C是类别数，channel数是(5*B+C)。
一个物体预测多个bounding box,需要用nms算法取得最佳的bounding box。

为什么一个物体要预测多个bounding box，怕一个bounding box预测不好。

算ious的时候算w/h的时候为什么要加1，比如算w=x2-x1+1,因为数据不是在连续域，数字图像处理的问题全部对应离散域。

confidence的Pr(object)代表是不是物体，IoU是准不准的问题，confidence是网络输出的，是一个数，confidence=Pr(object)*IoU(truth, pred)是人们为了理解confidence而对它所做的解释。

损失函数：

$\lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^{B}1_{i,j}^{obj}[(x_i-x_i^{\hat{}})^2+(y_i-y_i^{\hat{}})^2]\\ +\lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^{B}1_{i,j}^{obj}[(\sqrt{w_i}-\sqrt{w_{i}^{\hat{}}})^2+(\sqrt{h_i}-\sqrt{h_i^{\hat{}}})^2]\\ +\sum_{i=0}^{S^2}\sum_{j=0}^{B}1_{i,j}^{obj}(C_i-C_i^{\hat{}})\\ +\lambda_{noobj}\sum_{i=0}^{S^2}1_{i,j}^{noobj}(C_i-C_i^{\hat{}})^2\\ \sum_{i=0}^{S^2}1_i^{obj}\sum_{c\in classes}(P_i(c)-P_i^{\hat{}}(c))^2$
这样的方程首先看括号里的就明白许多，其次再看epsilon上下标和系数之类的东西。

坐标损失：
x,y: 预测bbox中心
w,h: 预测bbox的宽高
$x^{\hat{}},y^{\hat{}}$ : 标签的bbox中心
$\sqrt{w}, \sqrt{h}$ : 标签bbox的宽高
$\lambda_{coord}$ : 5，因为有物体的cell很少，所以给的权重大一些。

第二行w,h为什么会有根号：
对于大物体和小物体是同等重要的，网络对于产生更大的loss的东西产生更多关注，对大物体特征倾斜，不会对小物体给予更多重视，bp的时候小物体学不来东西，如果不对大物体处理，那网络对于小物体的检测会非常差，加根号会抑制大小物体的比率。

$1_{i,j}^{obj},1_{i,j}^{noobj}$ 存在的意义：
让不含物体的cell不参与含物体的cell的计算。
让含物体的cell不参与不含物体的cell的计算。

$\lambda_{coord}$ 存在的意义：
有物体的cell太少了，让正样本产生更多的loss,学到更多的东西，实际上是做了一个weighted loss。

为什么noobj里实际上是no object的cell标为0：
为了让结果更鲁棒。

置信度损失：
$C_{i}^{\hat{}}$ : 当有物体时，是预测的bbox和标签的bbox的IoU,当没物体时为0
$C_{i}$ : 网络生成的值
$\lambda_{noobj}$ : 0.5,因为没物体的cell太多，把权重设置小一点。

分类的损失：
一个cell只预测一个物体，这个物体由最大IoU的bbox决定，通过非极大值抑制可以获取每个物体最大IoU的bbox。

yolov1的优点：
一阶段，非常快

缺点：
对于密集的物体检测得不好，因为yolov1只有49个cell，一个cell值预测一个物体
对于小物体预测不好
对于新的宽高比的物体预测不好，比如长长的带鱼
没有BN

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-11-23 12:20:39 更:2021-11-23 12:21:40

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/29 23:25:10-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码