IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【深度学习】计算机视觉目标检测 RCNN Fast-RCNN Faster-RCNN -> 正文阅读

[人工智能]【深度学习】计算机视觉目标检测 RCNN Fast-RCNN Faster-RCNN

希望能一文让人回忆起曾经学习过的知识吧,工作后注重工程落地,反倒是丢了很多模型细节知识。
近来也发现疫情让大家更卷了,大家疫情在家估计更有精力去创作吧。
比如:https://space.bilibili.com/18161609/channel/seriesdetail?sid=244160

深度学习模型学习步骤:
(1)看网上的资料;
(2)看论文;
(3)看源码;
(4)反看论文。

1 RCNN

在这里插入图片描述

RCNN的算法过程:
(1)候选区域生成: 一张图像生成1K~2K个候选区域 (采用Selective Search 方法)
Selective Search 方法是基于图像分割的,在CPU上计算,一般时间得需要2秒钟。候选区域就是非常多的有一定道理的框。

(2)利用候选区域,crop原图,将2k个的warped region送入CNN网络提取特征,比如VGG16网络。得到 2k X 4096 的矩阵。

(3)对于每个类别做一个SVM分类器和SVM回归器,就有 20个SVM分类器 + 20个SVM回归器 。
2k个框里面判断是不是属于某个类别,然后NMS之后留下的框中存在的就是某个类别,再依靠SVM回归器对 x中心、y中心、x偏移、y偏移 进行回归。

RCNN的缺点:
(1)CNN特征提取是重复的;
(2)训练很麻烦,需要分别训练各个网络;
(3)训练所需空间很大(SVM分类器后才是SVM回归器,需要对分类器数据保留在硬盘)。

2 Fast-RCNN

论文:https://arxiv.org/pdf/1504.08083.pdf
在这里插入图片描述
Fast-RCNN 做了什么:
(1)采用SSP-net (Spatial Pyramid Pooling) 思想,图像只提取一次特征,在最后加入RoI pooling池化,池化成 7X7 特征图。 原图像大小就不用再关心。
(2)最终结果是使用2个并行的FC网络。
softmax是分类出21个类别,1个类别是背景。
bbox regressor 回归出(dx,dy,dw,dh)。

分类损失函数:
L ( p , u , t u , v ) = L c l s ( p , u ) + λ [ u ≥ 1 ] L l o c ( t u , v ) L\left(p, u, t^{u}, v\right)=L_{\mathrm{cls}}(p, u)+\lambda[u \geq 1] L_{\mathrm{loc}}\left(t^{u}, v\right) L(p,u,tu,v)=Lcls?(p,u)+λ[u1]Lloc?(tu,v)
bbox回归损失函数:
L l o c ( t u , v ) = ∑ i ∈ { x , y , w , h } smooth ? L 1 ( t i u ? v i ) L_{\mathrm{loc}}\left(t^{u}, v\right)=\sum_{i \in\{\mathrm{x}, \mathrm{y}, \mathrm{w}, \mathrm{h}\}} \operatorname{smooth}_{L_{1}}\left(t_{i}^{u}-v_{i}\right) Lloc?(tu,v)=i{x,y,w,h}?smoothL1??(tiu??vi?)
其中:
smooth ? L 1 ( x ) = { 0.5 x 2 ?if? ∣ x ∣ < 1 ∣ x ∣ ? 0.5 ?otherwise? \operatorname{smooth}_{L_{1}}(x)= \begin{cases}0.5 x^{2} & \text { if }|x|<1 \\ |x|-0.5 & \text { otherwise }\end{cases} smoothL1??(x)={0.5x2x?0.5??if?x<1?otherwise??

训练过程:
(1)候选区域生成: 一张图像生成1K~2K个候选区域 (采用Selective Search 方法)
(2)
正样本:与 ground truth 的 bbox IOU>0.5
负样本:与 ground truth 的 bbox 0.1 < IOU <= 0.5
从 1K~2K个候选区域 中随机选出一些正负样本进行训练。

3 Faster RCNN

论文:https://arxiv.org/pdf/1506.01497.pdf

在这里插入图片描述
Faster RCNN 做了什么:
(1)基础结构同Fast RCNN,多了RPN网络;
(2)RPN网络:是独立训练的一个网络,主要作用是判断anchor里面有没有存在待检测类别。
(3)一张原始图中,以每个像素点为中心生成不同面积、不同比例的9个 anchor, 除去边界影响的 anchor , 大概会剩下6k个anchor,经过RPN,然后NMS后大概就剩下2k个候选框。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-03-24 00:32:32  更:2022-03-24 00:35:03 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/9 1:09:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码