IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【目标检测】R-CNN 和 Fast R-CNN -> 正文阅读

[人工智能]【目标检测】R-CNN 和 Fast R-CNN

R-CNN(论文
Introduction
  • SIFT/HOG都使用了局部方向直方图,因此缺乏对层次性多个阶段任务的识别能力
  • R-CNN通过多层卷积网络,可以对图像区域进行分类,从而输出分类边界框和分割蒙版
  • R-CNN相比低级图像特征可以获得更好的分类结果,在多个种类的物体上都有好的表现
  • 物体检测里的两个挑战:定位技术,数据(有效的标签数据较少)
    • 定位技术(Localization):
      • operating?within?the “recognitin?using?regions”?paradigm
      • 测试阶段有2000左右的独立候选区域,每个勾选区域输出定长的CNN特征(忽略每个区域的形状),每个候选区域由线性SVM进行分类
      • R-CNN结构示意
? ?
  • 数据方面的挑战
    • 使用非监督的预训练,结束后有监督的进行微调(Fine-Tuning,FT)
    • 使用ILSVRC监督预训练,再使用小数据集微调
    • fine-tuning可以使结果上升8个百分点
Object?detection?with R-CNN
  • 构成模块:
    • 生成候选区
    • 提取定长特征的大型CNN网络
    • 线性SVM
  • 模块设计:
    • 候选区:
      • selective?search
    • 特征提取
      • 4096维
      • input 227*227,RGB,5个卷积层2个全连接层
  • Test-time?detection
    • NMS去除重复区域(Intersection-over-union, IoU)
  • Training
    • Supervised?pre-training
      • ILSVRC 2012数据集
      • 不使用bounding?box和标签
      • 分类效果接近AlexNet
    • Domain-specific?fine-tuning
      • 候选区
      • SGD训练CNN参数,学习率0.001(初始化的1/10)
      • ImageNet最后的分类层换为随机初始化的21(20+1)的分类层
      • 每个候选区>=0.5的IoU是正样例
      • 均匀采样32个正样例和96个background构建128的mini-batch
    • Object?category?classiers
      • IoU 0.3去除一些只包含一部分样例的图片(车的一部分,算车还是negative)
      • Hard Negative Minning

Fast R-CNN(论文地址
Intorduction
  • Object?detectin的挑战:
  • 大量的候选区
  • 获得位置是大致的,需要进一步优化
  • R-CNN
    • 多个步骤
      • 在候选区调整ConvNet
      • SVM
      • 生成bounding-box
    • 训练成本大
  • SPPNet
    • R-CNN基础上共享计算,feature map
  • Advantage
    • high?quality
    • single-stage?training,using?multi-task?loss
    • training?can update all network layers
    • No disk storage is required for feature caching
Architecture and training
  • Architecture
    • 输入:完整图像+候选区域集合
    • 首先:处理整张图像获得卷积feature map
    • 然后:RoI pooling(从每一个候选区提取定长的feature?map)
    • 输出层:
      • 背景
      • four real-valued numbers for each of the K object classes
        • each set of 4 values encodes refined bounding-box positions for one of the K classes
    • 优化的bounding-box
? ? ??

?

  • Initializing from pre-trained networks
  • Fine-tuning for detection
    • feature sharing during training
      • SGD mini-batch,按层次进行
        • 先采样N个图像
        • 然后每张图采样R/N个RoIs
        • 来自同一张图像的RoIs在前后向传播中共享计算(?)和缓存
  • Multi-task?loss
    • 有两个输出层
      • 一个输出离散的概率分布(softmax)
      • bounding-box?regression?offset
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-09-30 00:52:59  更:2022-09-30 00:56:37 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/25 21:48:54-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码