IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> yolov4项目记录1-卷积+BN -> 正文阅读

[人工智能]yolov4项目记录1-卷积+BN

目录

一、图像卷积

1.卷积

2.卷积参数

3.(1,1)卷积核

二、yolov4的卷积设计理念

三、Batch Normalize


一、图像卷积

1.卷积

左边的图是(7,7,1)的原图,中间的是3*3的kernel,从左上角开始,把和kernel同等大小的原图的像素,和kernel的元素,对应元素相乘,并把乘积结果相加,得到一个结果,这个过程就是卷积。

如果图片不是单通道而是三通道RGB,即(7, 7, 3),那么卷积核也是三通道,即(3,3,3)。即使卷积核是三通道了,最终卷积结果依旧是(5, 5, 1),因为每计算一次,三个通道的结果均是(5, 5, 1),这三个结果相加,还是(5, 5, 1)。

上面使用一个kernel计算一次,就生成了一张(5, 5, 1)的feature map,如果我们使用256个kernel,那么就拼接起来,生成(5, 5, 256)的feature map。

?

2.卷积参数

padding: 在原图的最外层补0,如果对(7, 7, 1)的外围增加一圈0,那么用3*3的卷积核卷积完以后,得到的是(7, 7, 1),也就是和原图大小一致了。

stride步长:如果stride=1,就是每卷积一次,就向右移动stride=1个位置,那么最终是从(7, 7, 1)生成(5, 5, 1)的feature map。

根据下面的计算,可以直接算出生成的特征图feature map的尺寸。

?

3.(1,1)卷积核

灵活降维和升维。比如原来是(28,28,256),那么使用(1,1,256)的卷积核,使用几个卷积核,就会输出几维,比如使用100个,就是(1,1,256,100),卷积后就得到了(28,28,100)。

好处1:减少参数量

在得到同样维度的结果的基础上,能极大地减少参数量。如下图所示。

?好处2:能代替全连层

下面的第一次卷积,是直接使用4096个(7,7,512)的卷积核,和原来的(7,7,512)进行全局卷积,得到(1,1,4096),再使用1000个(1,1,4096)进行卷积,就得到了(1,1,1000)的结果。全连接层的方式,和卷积的方式参数一样,因此全连接层就是一种全局的卷积。

二、yolov4的卷积设计理念

yolov4的输出需要包含的信息有:物体的位置信息、有物体的概率、物体的分类,可以写为:(tx, ty, tw, th, obj, cls),其中前四个是物体的位置信息,最后一个cls,根据分类的类别数,维度不同,如果只有1个类别,那就只占1个位置,如果是2个类别,就是2个位置,使用one-hot编码。

而在实际的yolov4的最终输出之前,也就是下面的黄色部分,是(19,19,1024),通过蓝色的18个(当只有1个分类类别的时候,如果有2个,那就是19个卷积核)1*1*1024的卷积核,得到(19,19,18),最后reshape成(3,19,19,tx, ty, tw, th, obj, cls)。

后面的是检测的物体信息,而前面的(3,19,19)的理解如下:

19*19个特征点,等同于把原图分成了19*19个网格,原图的输入是608*608的,那么每一个网格的大小就是608/19=32,每一个特征点只关注对应的网格,判断对应的网格是否有物体。

每个网格预先生成3个先验框,来满足不同尺寸的目标。先验框是根据数据的分布,人为指定的,比如使用k均值聚类的方法。而最前面的3,包含三个数字,分别代表的是:①哪个先验框更适合此物体(通过IOU得到),②物体x轴的位置,③物体y轴的位置

比如下面的物体是人,他在实际图中的网格位置是(4,3) ,而我们的先验框有3个,标号分别是0,1,2,并且0号框最适合这个人,因此对于(4,3)这个位置的网格的输出就是(0,4,3,tx, ty, tw, th, obj, cls),如果是训练好的模型,那么可能是(0,4,3,tx, ty, tw, th, 0.95, 0.98),如果是真实标签,那么这里的标签就是(0,4,3,tx, ty, tw, th, 1, 1),对于剩下的19*19-1个网格也是一样的。

这里面tx, ty, tw, th是相对于先验框的中心点的宽和高的变化量。训练的时候,对于其他的没有物体的位置的网格,物体相关信息全部赋值为0:(: ,: ,:, (0,0,0,0,0,0))

?

三、Batch Normalize

假设batch=4,也就是输入了4张图,每一张是(608,608,3),通过网络后,得到了(19,19,512)的feature map,总共有4个,也就是(4,19,19,512)。

首先取每张图的第一个通道的(19,19)那么多的数据,求平均,得到第一个通道上的所有4个平均值,再求和,再除以4求个平均。合起来就是:sum(4,19,19) / (19*19*4),这就是这个batch中,第一个通道的均值mu1。

再求剩下的511个通道的均值mu2...mu512,把这512个通道的均值拼接起来,得到一个长度为512的一维向量。这就是batch均值。

同理,按通道求得方差。

对每一个通道,都有2个参数gamma和beta,用于进行尺度变换和偏移,这两个参数是在反向传播中学到的,使得分布和真实的分布越来越像。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-12-28 22:55:34  更:2021-12-28 22:57:55 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 23:39:20-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码