RCNN->Faste RCNN ->Faster RCNN->mask rcnn
yolov1->yolov2->retinanet(focal loss)->yolov3
faster-rcnn 去掉了selective search ,可以端到端的进行训练,虽然最终还是分4步进行训练的话精度会提升。
即网络最后的classification是对所有anchor框定的Region进行识别分类,会严重拖累网络的分类性能,难以收敛。 yolo有类似rpn的机制,那就是最后输出时的confidence值,这个值决定了前景和背景。 https://www.zhihu.com/question/265345106 ssd是将anchor机制融合在了1 stage模型中,原理与本文所述基本一致。
相对于R-CNN系列的"看两眼"(候选框提取与分类),YOLO只需要Look Once. 2. YOLO统一为一个回归问题,而R-CNN将检测结果分为两部分求解:物体类别(分类问题),物体位置即bounding box(回归问题)。 yolo loss里面针对有无物体loss weight不同,也算是平衡正负样本
正负样本区域极不平衡而目标检测loss易被大批量负样本所左右的问题。此问题是单阶段目标检测框架(如SSD/Yolo系列)与双阶段目标检测框架(如Faster-RCNN/R-FCN等)accuracy gap的最大原因。在Focal loss提出之前,已有的目标检测网络都是通过像Boot strapping/Hard example mining等方法来解决此问题的。
作者:manofmountain 链接:https://www.jianshu.com/p/8e501a159b28 来源:简书 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
yolov1 缺点: 正负样本不平衡:少了一个阶段,没有先检测出存在物体的bounding box。 解决:存在与不存在物体的bounding box不同的权重
每一个grid只能一类物体 yolov2 解决
只能单标签 yolov3解决
每个格子最多只预测出一个物体 大物体IOU误差和小物体IOU误差对网络训练中loss贡献值接近(虽然采用求平方根方式,但没有根本解决问题)
|