[人工智能] 【目标检测】Fast R-CNN

IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【目标检测】Fast R-CNN -> 正文阅读

[人工智能]【目标检测】Fast R-CNN

文章目录

一、Fast R-CNN概述

在这里插入图片描述

Fast R-CNN	R-CNN
直接将整幅图像送入网络得到相应的特征图，将原图上生成的候选区域直接映射到特征图上即可得到我们的特征矩阵	将每一个候选区域分别送入网络得到特征向量

二、Fast R-CNN如何生成候选框

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

左图是一个候选区域在原图上的对应的一个特征矩阵，它所展示的是一个更抽象的信息，我们是看不懂的。
将我们所得到的特征矩阵划分成 $7 ? 7 = 49$ 等份，对每一个区域执行最大池化下采样（max-pooling）
无论输入的特征矩阵是多大的尺寸，RoI Pooling Layer都会将它缩放到7*7大小
在R-CNN中我们要求输入图像的大小是 $227 ? 227$ 的大小，而在Fast R-CNN中我们就不需要对输入图像的尺寸进行限制。

三、CNN

通过RoI Pooling Layer得到RoI feature，然后进行展平处理，通过两个全连接层得到RoI feature vector。
在这里插入图片描述

（1）关于目标概率的分类器

在这里插入图片描述
这里的目标概率满足概率分布，和为1

（2）边界框回归器

在这里插入图片描述
我们是如何通过我们得到的回归参数确定我们最终的边界框？

在这里插入图片描述

（3）如何计算Fast R-CNN的损失

在这里插入图片描述

关于v对应真实目标的边界框回归参数 $v_x,v_y,v_w,v_h)$ :
是通过以下预测函数求函数得到的

在这里插入图片描述

Bounding Box Regression超详解（全站最全汇总版）综合各个途径文档看这一篇就够了解决你所有疑惑

1.分类损失

在这里插入图片描述

推导：
在这里插入图片描述

举例：假设真实标签的one-hot编码是：[0,0,…,1,…,0]
预测的softmax概率是[0.1,0.3,…,0.4,…,0.1]
Loss = -log(0.4)

在这里插入图片描述

2.回归损失

在这里插入图片描述

关于 $L_{loc}(t^u,v)$ 及 $smooth_{L_{1}}(t_i^{u}-v_i)$ :
参考：回归损失函数1：L1 loss, L2 loss以及Smooth L1 Loss的对比

在这里插入图片描述

$\lambda$ ：平衡系数，用来平衡分类损失和边界框回归损失
[ $u\geq 1$ ]：艾弗森括号，当 $u\geq 1$ 时，这一项等于1，当不满足时，这一项等于0
即一个示性函数：

$u$ 是真实类别的概率，不是 $0$ 就是 $1$
当 $u\geq 1$ 时，代表对应的是正样本，[ $u\geq 1$ ]=1，计算边界框损失；
当 $u\leq 1$ 时，代表对应的时负样本，[ $u\geq 1$ ]=0，不计算边界框损失。
总的来说，就是当边界框框出来的不是背景（正样本），就计算边界框回归损失。

得到总损失，并对其进行反向传播，就可以来训练我们的Fast R-CNN网络了。

四、和R-CNN的对比

在这里插入图片描述

在这里插入图片描述

相比于R-CNN，Fast R-CNN将分类和回归融入到CNN网络中，快了200多倍；
接下来的Faster R-CNN将会把Region proposal也融进CNN网络中，完成一个端对端的训练过程。
但是SS算法在cpu上需要2s左右，而一系列CNN操作只有零点几秒，所以Fast R-CNN的瓶颈就在于SS算法。
Faster R-CNN会通过Region proposal Network来解决这个问题。

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2022-10-17 12:33:42 更:2022-10-17 12:35:21

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年11日历

-2025/11/29 3:28:20-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码