1.R-CNN

对于多个目标的情况,就不能以固定个数输出物体的位置值

1.1 目标检测-Overfeat模型

滑动窗口

为了在不同观察距离处检测不同的目标类型，我们使用不同大小和宽高比的窗口。如下图所示;

??注:这样就变成每张子图片输出类别以及位置，变成分类问题。
??但是滑动窗口需要初始设定一个固定大小的窗口，这就遇到了一个问题，有些物体适应的框不一样。

所以需要提前设定K个窗口，每个窗口滑动提取M个，总共KxM个图片，通常会直接将图像变形转换成固定大小的图像，变形图像块被输入CNN分类器中，提取特征后，我们使用一些分类器识别类别和该边界框的另一个线性回归器。

??总结：这种方法类似一种暴力穷举的方式，会消耗大量的计算力量，并且由于窗口大小问题可能会造成效果不准确。但是提供了—种解决目标检测问题的思路。

R-CNN选用SVM进行二分类。假设检测20个类别，那么会提供20个不同类别的SVM分类器,每个分类器都会对2000个候选区域的特征向量分别判断一次，这样得出[2000,20]的得分矩阵；
猫分类器： 2000个候选区域做判断，得到2000个属于猫的类别
狗分类器：2000个候选区域做判断，得到2000个属于猫的类别
…
…
[2000,20]

在这里插入图片描述

RCNN输出:一张图片预测一个X候选框，x*w = y_locater

论文当中S=16=2x 2×2×2
原图：特征图中xmin‘， ymin’ = [xmin/16]+1,ymin/16+1
特征图：xmax’，ymax’= [xmax/16]+1,ymax/16+1

提出一个Rol pooling
分类是用softmax计算：K个类别加上”背景"类·
与SPPNet—样的地方：
(1)首先将整个图片输入到一个基础卷积网络，得到整张图的feature map
(2)将选择性搜索算法的结果region proposal (Rol)映射到feature map中

在这里插入图片描述
从输入端到输出端直接用一个神经网络相连，整体优化目标函数。

平均绝对误差（MAE)损失即L1损失+交叉嫡损失

对于分类loss，是一个N+1路的softmax输出，其中的N是类别个数，1是背景，使用交叉嫡损失
对于回归loss，是一个4xN路输出的regressor，也就是说对于每个类别都会训练一个单独的regressor的意思，使用平均绝对误差(MAE)损失即L1损失

在这里插入图片描述
Fast R-CNN的缺点
使用Selective Search提取Region Proposals，没有实现真正意义上的端对端，操作也十分耗时

候选区域筛选融合到网络当中
四个基本步骤(候选区域生成，特征提取，分类，位置精修）终于被统一到一个深度网络框架
区域生成网络+Fast R-CNN
RPN替代了SS选择性搜索算法
(1) RPN网络用于生成region proposals
(2)通过softmax判断anchors属于foreground或者backgroundo
(3)bounding box regression修正anchors获得精确的proposals。
(4)得到默认300个候选区域给roi pooling继续后面fast rcnn的步骤

在这里插入图片描述

用n*n(默认3×3=9)的大小窗口去扫描特征图得到K个候选窗口
每个特征图中像素对应的9个窗口大小
三种尺度{128，256，512}，三种长宽比{1:1，1:2，2:1}
3× 3=9不同大小的候选框
(1)窗口输出[N，256]——>分类:判断是否是背景
(2)回归位置:N个候选框与自己对应目标值GT做回归，修正位置。
(3)得到更好的候选区域提供给ROl pooling使用