希望能一文让人回忆起曾经学习过的知识吧,工作后注重工程落地,反倒是丢了很多模型细节知识。 近来也发现疫情让大家更卷了,大家疫情在家估计更有精力去创作吧。 比如:https://space.bilibili.com/18161609/channel/seriesdetail?sid=244160
深度学习模型学习步骤: (1)看网上的资料; (2)看论文; (3)看源码; (4)反看论文。
1 RCNN
RCNN的算法过程: (1)候选区域生成: 一张图像生成1K~2K个候选区域 (采用Selective Search 方法) Selective Search 方法是基于图像分割的,在CPU上计算,一般时间得需要2秒钟。候选区域就是非常多的有一定道理的框。
(2)利用候选区域,crop原图,将2k个的warped region送入CNN网络提取特征,比如VGG16网络。得到 2k X 4096 的矩阵。
(3)对于每个类别做一个SVM分类器和SVM回归器,就有 20个SVM分类器 + 20个SVM回归器 。 2k个框里面判断是不是属于某个类别,然后NMS之后留下的框中存在的就是某个类别,再依靠SVM回归器对 x中心、y中心、x偏移、y偏移 进行回归。
RCNN的缺点: (1)CNN特征提取是重复的; (2)训练很麻烦,需要分别训练各个网络; (3)训练所需空间很大(SVM分类器后才是SVM回归器,需要对分类器数据保留在硬盘)。
2 Fast-RCNN
论文:https://arxiv.org/pdf/1504.08083.pdf Fast-RCNN 做了什么: (1)采用SSP-net (Spatial Pyramid Pooling) 思想,图像只提取一次特征,在最后加入RoI pooling池化,池化成 7X7 特征图。 原图像大小就不用再关心。 (2)最终结果是使用2个并行的FC网络。 softmax是分类出21个类别,1个类别是背景。 bbox regressor 回归出(dx,dy,dw,dh)。
分类损失函数:
L
(
p
,
u
,
t
u
,
v
)
=
L
c
l
s
(
p
,
u
)
+
λ
[
u
≥
1
]
L
l
o
c
(
t
u
,
v
)
L\left(p, u, t^{u}, v\right)=L_{\mathrm{cls}}(p, u)+\lambda[u \geq 1] L_{\mathrm{loc}}\left(t^{u}, v\right)
L(p,u,tu,v)=Lcls?(p,u)+λ[u≥1]Lloc?(tu,v) bbox回归损失函数:
L
l
o
c
(
t
u
,
v
)
=
∑
i
∈
{
x
,
y
,
w
,
h
}
smooth
?
L
1
(
t
i
u
?
v
i
)
L_{\mathrm{loc}}\left(t^{u}, v\right)=\sum_{i \in\{\mathrm{x}, \mathrm{y}, \mathrm{w}, \mathrm{h}\}} \operatorname{smooth}_{L_{1}}\left(t_{i}^{u}-v_{i}\right)
Lloc?(tu,v)=∑i∈{x,y,w,h}?smoothL1??(tiu??vi?) 其中:
smooth
?
L
1
(
x
)
=
{
0.5
x
2
?if?
∣
x
∣
<
1
∣
x
∣
?
0.5
?otherwise?
\operatorname{smooth}_{L_{1}}(x)= \begin{cases}0.5 x^{2} & \text { if }|x|<1 \\ |x|-0.5 & \text { otherwise }\end{cases}
smoothL1??(x)={0.5x2∣x∣?0.5??if?∣x∣<1?otherwise??
训练过程: (1)候选区域生成: 一张图像生成1K~2K个候选区域 (采用Selective Search 方法) (2) 正样本:与 ground truth 的 bbox IOU>0.5 负样本:与 ground truth 的 bbox 0.1 < IOU <= 0.5 从 1K~2K个候选区域 中随机选出一些正负样本进行训练。
3 Faster RCNN
论文:https://arxiv.org/pdf/1506.01497.pdf
Faster RCNN 做了什么: (1)基础结构同Fast RCNN,多了RPN网络; (2)RPN网络:是独立训练的一个网络,主要作用是判断anchor里面有没有存在待检测类别。 (3)一张原始图中,以每个像素点为中心生成不同面积、不同比例的9个 anchor, 除去边界影响的 anchor , 大概会剩下6k个anchor,经过RPN,然后NMS后大概就剩下2k个候选框。
|