IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 目标检测 Chapter1 传统目标检测方法 -> 正文阅读

[人工智能]目标检测 Chapter1 传统目标检测方法

目标检测问题定义

介绍

在这里插入图片描述
目标种类与数量问题:种类不同。种类越多,难度越大。数量越多(遮挡),难度越大。

目标尺度问题:同一种类的物体,也会有不同的尺度。尺度变化越大,目标检测的难度越大。尤其是在尺度非常小的时候。由于物体是运动的,所以尺度上也会变化。

一张图片,他的物体和数量都是不确定的,这就是目标检测的目的。位置一般是矩形框,在矩形框内,我们还要做目标分类。对于目标检测问题,我们用到的网络是多任务的网络,通常完成目标位置的定位和目标分类。

目标检测和图像分类、图像分割的区别

在这里插入图片描述
框上的数值,是置信度,当前检测框属于查找目标的概率值。我们通常会设定一个阈值,用于过滤分类概率低的目标。不同颜色的矩形框,表示不同的类别。

在这里插入图片描述
分类需要识别类别,检测还要识别出位置。目标分割,需要找到当前目标所占的区域。第3张图,是语义分割,第4章图,是实例分割。

目标检测问题方法

在这里插入图片描述
传统的手动设计特征,以及滑动窗口。设计特征往往很难设计,而且对于一些条件可能不适应或者不鲁邦,设计特征效率也是很低。另外滑动窗口提取目标框,流程也是非常耗时。
2012之后,利用深度学习卷积神经网络,在做目标检测,效果得到了很大的提升。一开始RCNN只是用神经网络用于特征的提取,后面当faster RCNN,彻底完成了端到端的网络。不需要在滑动窗口提取,而是通过RPN,来做候选框。Yolo是不需要候选框,而是直接用回归的方法,直接来找目标,他的速度非常的快,后面的精确度也随着Yolo的改进,得到了很大的提升。

传统目标检测

在这里插入图片描述
在这里插入图片描述
VJ:积分图特征+Adaboost分类起
HOG+SVM:主要用于行人检测
DPM:基于HOG的一种变种,DPM加入额外的策略,来提升精度,是除深度学习之外,最强的算法。在深度学习用到了一些DPM的概念,比如候选框。

深度学习目标检测

在这里插入图片描述
One-Stage:Yolo和SSD。
Two0-Stage:Faster-RCNN。先找出候选框,再做回归和分类。

2013-2018在这里插入图片描述

传统 Vs 深度学习

在这里插入图片描述
深度学习往往通过不同的网络结构,来学习不同的特征。
在这里插入图片描述
在这里插入图片描述

传统目标检测综述

在这里插入图片描述
在这里插入图片描述
关于图像特征表示的一些方法,基于纹理,颜色,形状以及一些高层次语义的方法,这些方法是需要学习来找到的,比如抽取直方图特征或者纹理特征,HOG特征,这些稠密特征,通过PCA降维,或者LDA对特征进行空间的投影,对抽取的基本特征,来学习更鲁邦的特征出来。

传统的特征分类:低层特征、中层次特征(机器方法-特征挖掘-PCA-LDA)、高层次特征(语义特征)(将低、中层的特征,进一步挖掘)。
在传统目标检测方法中,主要集中低、中的特征。

对于候选区域提取的特征,进行分类判定。对于单类别目标检测,只需要判断窗口对象是否为要检测的目标即可。对于多分类问题,我们先看是否为背景,如果不是,再做多分类。

候选框可能存在重叠的情况,我们需要用NMS对于候选框进行合并,得到我们要检测的目标。

对于深度学习的目标检测方法,区别在于特征提取,变成CNN。区域提取,用RPN网络。(2-stages)

在这里插入图片描述

Viola-Jones

在这里插入图片描述

VJ:主要用于人脸检测。特征抽取采用Haar。
在这里插入图片描述
特征表示方式是直方图。包含不同种类的集成图特征。对于每一个像素点,我们会计算出一个值,这个值用白色区域减去黑色的区域,作为我们表示的一个值。

Edge表示相邻的像素点,进行差值。
在这里插入图片描述

HOG+SVM

在这里插入图片描述
行人的姿态,存在非常多的差异。所以行人的检测,存在一定的难度。
在这里插入图片描述
HOG特征,纹理特征的一种。HOG主要用于灰度图上。Gamma变化,就是对于值开平方根。计算每一点在x和y方向的梯度值,来计算梯度夹角。再将0-360,量化为若干个方向(18个方向,每个方向20度)。每个cell就是18维,相邻的4个cell组成block。通过组合,将特征归一化处理,让特征更加的鲁邦。

这里其实通过cell,可以看到一些yolo的影子。

在这里插入图片描述

DPM

在这里插入图片描述
DPM在进行特征检测,会基于HOG,但是比HOG处理的更加精细。HOG是计算梯度方向,所以是纹理特征的一种。对于方向特征,包括0-360度,我们成为有方向的梯度。如果是0-180,是无方向的梯度。
在这里插入图片描述
在这里插入图片描述

NMS 非极大值抑制

在这里插入图片描述
分数就是我们的框上面那个confidence,对于该类物体的置信度。
与最高的框,IOU大于阈值的框,删掉。完全不重叠,或者重叠很小的,被留下。然后重复。

在这里插入图片描述
soft-NMS不是直接删除,而是软抑制。是深度学习算法提出的一个小的技巧。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-05-09 12:39:40  更:2022-05-09 12:44:04 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 7:31:31-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码