IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Deep Learning for Generic Object Detection: A Survey综述阅读笔记 -> 正文阅读

[人工智能]Deep Learning for Generic Object Detection: A Survey综述阅读笔记

介绍

目标检测背景

目标检测结构

目标检测框架

目标检测可以分为两种类型 :
特定实例的检测
特定类别的检测
第一种类型的目标是检测特定目标的实例,而第二种类型的目标是检测不同的预定义目标类别的实例(例如人类、汽车、自行车和狗.
2012年,Krizhevsky等人提出了一个叫做AlexNet的深度卷积神经网络(DCNN),它在大规模的视觉识别挑战(ILSRVC)[179]中实现了破纪录的图像分类精度

特定目标检测:例如行人检测[51、60、48]人脸检测[226、232],车辆检测{196}和文本检测

2.1目标检测的问题

2.2 Main Challenges
检测精度
1.类内变化的巨大范围
内在因素
影像学条件
2.大量的目标对象类别
demands great discrimination power from the detector to distinguish between subtly different interclass variations

检测效率
计算能力和存储空间有限
效率取决于定位和识别

2.3过去二十年取得的进展

早期:基于模板匹配技术和简单的基于零件的模型

1990前:基于几何表示

随后:统计分类器(如神经网络,SVM和Adaboost ),基于外观

DCNNs的成功应用在图像分类被转移到目标检测
DCNN介绍:

DCNN优势:
大规模标记数据集的可用性和具有极高计算能力的gpu

DCNN不足
1)对标记训练数据的极度需求和昂贵的计算资源的需求
2)选择合适的学习参数和网络架构仍然需要相当的技能和经验。
3)对退化缺乏鲁棒性
4)许多dcnn存在严重的攻击漏洞

AlexNet是第一个现代深度卷积网络模型,首次使用了许多现代深度卷积网络的技术方法,AlexNet是在LeNet的基础上加深了网络的结构,学习更丰富更高维的图像特征。

AlexNet网络结构在整体上类似于LeNet,都是先卷积然后在全连接。但在细节上有很大不同。AlexNet更为复杂。AlexNet有60 million个参数和65000个 神经元,五层卷积,三层全连接网络,最终的输出层是1000通道的softmax。AlexNet利用了两块GPU进行计算,大大提高了运算效率。

AlexNet的特点:
1)更深的网络结构
2)使用层叠的卷积层,即卷积层+卷积层+池化层来提取图像的特征
3)使用Dropout抑制过拟合
4)使用数据增强Data Augmentation抑制过拟合
神经网络由于训练的参数多,表能能力强,所以需要比较多的数据量,不然很容易过拟合。当训练数据有限时,可以通过一些变换从已有的训练数据集中生成一些新的数据,以快速地扩充训练数据。对于图像数据集来说,可以对图像进行一些形变操作
5)使用Relu替换之前的sigmoid的作为激活函数
6)多GPU训练

Dropout工作原理:
引入Dropout主要是为了防止过拟合。在神经网络中Dropout通过修改神经网络本身结构来实现,对于某一层的神经元,通过定义的概率将神经元置为0,这个神经元就不参与前向和后向传播,就如同在网络中被删除了一样,同时保持输入层与输出层神经元的个数不变,然后按照神经网络的学习方法进行参数更新。在下一次迭代中,又重新随机删除一些神经元(置为0),直至训练结束。

4.** Datasets**
PASCAL VOC ( fallen out of fashion)
ImageNet (atypical of real-world scenarios)
MS COCO(包含了复杂的日常场景和自然环境中的普通物体,更接近真实生活) the standard for object detection
Open Images(only the object instances of human-
confirmed positive labels are annotated)仅标注正面标签的对象实例

Evaluation Criteria
1) detection speed in Frames Per Second (FPS)
FPS用来评估目标检测的速度。即每秒内可以处理的图片数量

2)precision
在这里插入图片描述

准确率是我们最常见的评价指标,而且很容易理解,就是被分对的样本数除以所有的样本数,通常来说,正确率越高,分类器越好
3)recall
召回率是覆盖面的度量,度量有多个正例被分为正例,recall=TP/(TP+FN)=TP/P=sensitive,
most commonly used metric:Average Precision (AP)
True Positive(真正,TP):将正类预测为正类数

True Negative(真负,TN):将负类预测为负类数

False Positive(假正,FP):将负类预测为正类数误报 (Type I error)

False Negative(假负,FN):将正类预测为负类数→漏报 (Type II error)

mAP
TP: IoU>0.5的检测框数量(同一 Ground Truth 只计算一次)
FP: IoU<=0.5的检测框,或者是检测到同一个 GT 的多余检测框的数量
FN: 没有检测到的GT的数量
GT:ground truth box:标准数据

Precision: TP / (TP + FP)
Recall: TP / (TP + FN)

PR曲线: Precision-Recall曲线
AP: PR曲线下的面积,综合考量了 recall 和 precision 的影响,反映了模型对某个类别识别的好坏。
mAP: mean Average Precision, 即各类别AP的平均值,衡量的是在所有类别上的平均好坏程度。

3. 目标检测的结构

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-31 16:38:15  更:2021-07-31 16:39:57 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/28 12:14:02-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码