[人工智能] RCNN 阅读笔记

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> RCNN 阅读笔记 -> 正文阅读

[人工智能]RCNN 阅读笔记

Rich feature hierarchies for accurate object detection and semantic segmentation

名字由来：

候选区域与CNN相结合 Region proposals+CNN、

该篇是利用深度学习进行目标检测的开山之作
将深度神经网络用于了目标检测和分割并应用了迁移学习
分成三个部分第一部分SS算法提取候选区第二部分特征提取(使用CNN实现) 第三部分分类器(SVM) 边界框回归器这两部分都是单独训练的

伯克利团队的一篇论文在当时还是很牛的

知识点:

特征提取

SIFT 尺度不变特征变换（Scale-invariant feature transform，SIFT）
一种检测局部特征的算法，可以帮助定位图像中的局部特征,该算法通过求一幅图中的特征点的描述子得到特征并进行图像特征点匹配,基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关。
共四个关键步骤
构造比例空间：确保要素与比例无关
关键点本地化：确定合适的特征或关键点
方向分配：确保关键点是角度不变
关键点描述符：为每个关键点分配独一的指纹

论文:D. Lowe. Distinctive image features from scale-invariant keypoints. IJCV, 2004

参考:
文章1
文章2
文章3 推荐
视频1
视频2
视频3
2. HOG 方向梯度直方图（Histogram of Oriented Gradient, HOG）
一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征, 局部目标的表象和形状能够被梯度或边缘的方向密度分布很好地描述,本质为梯度的统计信息，而梯度主要存在于边缘的地方
本质去掉背景保留目标轮廓
参考

论文 N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005. 1

文章1
文章2
文章3 推荐
视频1 推荐

DPM是HOG（Histograms of Oriented Gradients）的扩展
先计算梯度方向直方图，然后用SVM

rcnn结构

1.生成类别无关区域提案即候选区
生成候选区知识点:

objectness
提取目标的算法，基于目标与图片上其他的区别，提出相关的区分方式分别为多尺度下的显著性（Multi-scale Saliency），框内外颜色对比度（Color Contrast），靠近框边界的边缘密度（Edge Density），跨越超像素的程度（Superpixels Straddling）
参考
论文B. Alexe, T. Deselaers, and V. Ferrari. Measuring the objectness of image windows. TPAMI, 2012. 2
文章1
文章1
文章1
selective search 使用
尽可能遍历所有的尺度，通过图像分割，先得到小尺度的区域，然后使用一些合并策略一次次合并得到大的尺寸，衡量每个尺寸的可能性　　得到了层次化的区域结构
参考
文章

论文 J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders.
Selective search for object recognition. IJCV, 2013. 1, 2, 3,
4, 5, 9

category-independent object proposals 类别无关对象建议

论文I. Endres and D. Hoiem. Category independent object proposals. In ECCV, 2010. 3

constrained parametric min-cuts (CPMC) 约束参数最小化

论文 J. Carreira and C. Sminchisescu. CPMC: Automatic object segmentation using constrained parametric min-cuts.
TPAMI, 2012. 2, 3

以上是基于图像的纹理、轮廓、色彩等特征的
5. multi-scale combinatorial grouping 多尺度组合分组

论文 P. Arbelaez, J. Pont-Tuset, J. Barron, F. Marques, and J. Ma- ′
lik. Multiscale combinatorial grouping. In CVPR, 2014. 3

Ciresan et al

论文D. Cires?an, A. Giusti, L. Gambardella, and J. Schmidhuber. Mitosis detection in breast cancer histology images with
deep neural networks. In MICCAI, 2013. 3

2.从每个区域提取固定长度特征向量的大型卷积神经网络
数据的处理

1.对图片扩充为正方形并缩放到所需大小
2.不保留横纵比的情况下缩放到所需大小
3.深度卷积神经网络（CNN）计算每个提案的特征这里使用cnn
4. 一组特定类别的线性SVM

在这里插入图片描述

需要数据的阶段（1）CNN微调，（2）检测器SVM训练（3）检测框回归训练

具体过程

提取2Ｋ区域　――＞　缩放到227227――＞cnn-?去掉最后一层所有输出为4096维特征即20004096—》svm （根据分类不同svm不同）这里是409620的权值矩阵
20004096 * 409620 = 200020 然后非极大值仰止得出精确的候选框反向:回归器(共四个值)对位置修正(IOU大于某个阈值)

名词解释

正样本是我们想要正确分类出的类别所对应的样本负样本相反

细粒度视觉分类（FGCV，Fine-Grained Visual Categorization）即识别细分类别的任务，一般它需要同时使用全局图像信息与局部图像信息精准识别图像子类别

领域自适应（Domain Adaptation）是迁移学习（Transfer Learning）的一种，思路是将不同领域（如两个不同的数据集）的数据特征映射到同一个特征空间，这样可利用其它领域数据来增强目标领域训练。领域自适应（Domain Adaptation）是迁移学习中的一种代表性方法，指的是利用信息丰富的源域样本来提升目标域模型的性能。