[人工智能] 【目标检测】R-CNN 和 Fast R-CNN

IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 【目标检测】R-CNN 和 Fast R-CNN -> 正文阅读

[人工智能]【目标检测】R-CNN 和 Fast R-CNN

R-CNN（论文）

Introduction

SIFT/HOG都使用了局部方向直方图，因此缺乏对层次性多个阶段任务的识别能力
R-CNN通过多层卷积网络，可以对图像区域进行分类，从而输出分类边界框和分割蒙版
R-CNN相比低级图像特征可以获得更好的分类结果，在多个种类的物体上都有好的表现
物体检测里的两个挑战：定位技术，数据（有效的标签数据较少）
- 定位技术（Localization）：
  - operating?within?the “recognitin?using?regions”?paradigm
  - 测试阶段有2000左右的独立候选区域，每个勾选区域输出定长的CNN特征（忽略每个区域的形状），每个候选区域由线性SVM进行分类
  - R-CNN结构示意

? ?

数据方面的挑战
- 使用非监督的预训练，结束后有监督的进行微调（Fine-Tuning，FT）
- 使用ILSVRC监督预训练，再使用小数据集微调
- fine-tuning可以使结果上升8个百分点

Object?detection?with R-CNN

构成模块：
- 生成候选区
- 提取定长特征的大型CNN网络
- 线性SVM
模块设计：
- 候选区：
  - selective?search
- 特征提取
  - 4096维
  - input 227*227，RGB，5个卷积层2个全连接层
Test-time?detection
- NMS去除重复区域(Intersection-over-union, IoU)
Training
- Supervised?pre-training
  - ILSVRC 2012数据集
  - 不使用bounding?box和标签
  - 分类效果接近AlexNet
- Domain-specific?fine-tuning
  - 候选区
  - SGD训练CNN参数，学习率0.001（初始化的1/10）
  - ImageNet最后的分类层换为随机初始化的21（20+1）的分类层
  - 每个候选区>=0.5的IoU是正样例
  - 均匀采样32个正样例和96个background构建128的mini-batch
- Object?category?classiers
  - IoU 0.3去除一些只包含一部分样例的图片（车的一部分，算车还是negative）
  - Hard Negative Minning

Fast R-CNN（论文地址）

Intorduction

Object?detectin的挑战：

大量的候选区
获得位置是大致的，需要进一步优化
R-CNN
- 多个步骤
  - 在候选区调整ConvNet
  - SVM
  - 生成bounding-box
- 训练成本大
- 慢
SPPNet
- R-CNN基础上共享计算，feature map
Advantage
- high?quality
- single-stage?training，using?multi-task?loss
- training?can update all network layers
- No disk storage is required for feature caching

Architecture and training

Architecture
- 输入：完整图像+候选区域集合
- 首先：处理整张图像获得卷积feature map
- 然后：RoI pooling(从每一个候选区提取定长的feature?map)
- 输出层：
  - 背景
  - four real-valued numbers for each of the K object classes
    - each set of 4 values encodes refined bounding-box positions for one of the K classes
- 优化的bounding-box

? ? ??

?

Initializing from pre-trained networks
Fine-tuning for detection
- feature sharing during training
  - SGD mini-batch,按层次进行
    - 先采样N个图像
    - 然后每张图采样R/N个RoIs
    - 来自同一张图像的RoIs在前后向传播中共享计算（？）和缓存
Multi-task?loss
- 有两个输出层
  - 一个输出离散的概率分布（softmax）
  - bounding-box?regression?offset

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2022-09-30 00:52:59 更:2022-09-30 00:56:37

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/27 20:15:50-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码