Q1:什么是2D卷积(多通道)
A1:这里假设输入层是一个 5 x 5 x 3 矩阵,它有 3 个通道。过滤器则是一个 3 x 3 x 3 矩阵。首先,过滤器中的每个卷积核都应用到输入层的 3 个通道,执行 3 次卷积后得到了尺寸为 3 x 3 的 3 个通道。
?面向多通道的 2D 卷积的第一步:过滤器每个卷积核分别应用到输入层的 3 个通道上,之后,这 3 个通道都合并到一起(元素级别的加法)组成了一个大小为?3 x 3 x 1 的单通道。这个通道是输入层(5 x 5 x 3 矩阵)使用了过滤器(3 x 3 x 3 矩阵)后得到的结果。
?
notes:强调两点:
- 滤波器的卷积核数量与前一层Feature Maps数量相等。
- 一个滤波器只在当前层产生一个Feature Map,可通过滤波器的数量来控制产生的Feature Map的数量。
思考一下,如果卷积核数量小于前一层通道数怎么办?这就是3D卷积的思想来源。
?1.论文背景
2D卷积是针对一张原始图像或者视频的一帧进行的特征提取,但是很多场景中多张图片(MRI slices)或者视频的连续帧之间往往存在关联信息,这就是3D CNN提出的背景。3D CNN主要是为了解决图片之间的关联信息,增加一个新的维度信息。
2.Flash point
2D CNN主要将视频的一帧作为输入,但这就忽略了各帧之间的关联信息。而3D CNN以连续的多帧作为输入,增加了时间维度的信息,能够提取到更具表达性的特征。
3.论文细节
3.1 3D卷积
3D卷积的突出特点:卷积核数量小于前一层通道数
如果是2D卷积应该就是一个卷积核数量为4的滤波器去卷积产生一张Feature Map。但是3D卷积共享一个卷积核产生了多张Feature Map,这些Feature Map之间包含着时间维度的信息,即连续帧之间的关联信息。
上图中时间维度上卷积核大小为3,并且连接使用颜色进行编码,所以共享权值的是相同的颜色,在三维卷积中,将相同的三维卷积核应用于输入视频中重叠的三维立方体重,提取特征。
但是如果想要不同类型的特征呢?与2D卷积一样,用不同的滤波器即可。
?上图中,从连续的帧中提取多个特征。多个三维卷积可以应用于相邻帧,提取多个特征。如图所示,连接集是用颜色编码的,因此共享权重是相同的颜色。请注意,所有6组连接都不共享权重,从而导致右侧出现两个不同的特征映射。
3.2 hardwired kernels
通过上面的讲解你应该知道3D卷积的真正实现了,但是在实际应用中我们不可能直接对连续的帧直接做3D卷积,因为这样提取的信息过于简单,所以需要在3D卷积之前做一次hardwired kernels 卷积。
解释一下这里5种颜色的33个Feature map,作者利用 hardwired kernels 生成了灰度、x方向梯度、y方向梯度、x方向光流、y方向光流五种特征信息(gray,gradient-x,gradient-y, optflow-x, and optflow-y),前面三个通道的信息可以直接对每帧分别操作获取,后面的光流(x,y)则需要利用两帧的信息才能提取,因此H1层的特征maps数量:(7+7+7+6+6=33),特征maps的大小依然是60 * 40。
3.3 3D-CNN
?3D-CNN架构室友1个hardwired kernels层,三个卷积层,两个下采样层,一个全连接层组成。
notes:?
1.上图2个红框表示两个不同的滤波器得到的特征图。
2.上图这种3D卷积由于是对五种特征分开进行卷积的,因此卷积核的数量是3.1节中所有通道一起卷积的卷积核数量的五倍。
在如图3所示的这个架构中,我们考虑以当前帧为中心的7个大小为60×40的帧作为3D CNN模型的输入
H1.首先使用hardwired kernel层使的输入的帧形成多个channel,这使得在第二次的5个不同channel中有33个不同特征信息:gray,gradient-x,gradient-y, optflow-x, and optflow-y.
????????gray channel:包含7个输入帧的灰度像素值。
????????gradient-x,gradient-y:分别映射计算7和输入帧每个帧延水平和垂直方向的梯度
????????optflow-x和optflow-y:分别包含沿水平和垂直方向的光流场,从相邻的输入帧计算中得出。
C2.使用3D卷积内核大小为7x7x3(7x7在空间维度上,3在时间维度)在5个channel上分别进行,为了增加特征映射的数量,在每个位置应用了两组不同的卷积,导致C2层有2组特征映射,每组包含23个特征映射,该层包含1480个可训练参数。
S3:在随后的下采样层S3中:我们在C2层的每个feature map上应用2×2下采样,导致feature map数量相同,但空间分辨率降低。该层可训练参数数为92个。
C4:下一个卷积层C4是通过分别对两组特征映射中的5个channel中的每个通道应用核大小为7×6×3的3D卷积得到的。为了增加特征映射的数量,我们在每个位置应用3个带有不同内核的卷积,导致在C4层中产生6组不同的特征映射,每组包含13个特征映射。该层包含3810个可训练参数。
S6:下一层S5通过在C4层的每个feature map上应用3×3下采样,得到相同数量的feature map,但降低了空间分辨率。该层可训练参数个数为156个。在这个阶段,时间维的大小已经比较小了(gray, gradient-x, gradient-y为3,optflow-x和optflow-y为2),所以我们只在这一层的空间维度进行卷积。所使用的卷积内核的大小为7×4,因此输出特性映射的大小减少为1×1。
?C6:C6层由128个1×1大小的feature map组成,每个feature map都连接到S5层的所有78个feature map,导致289536个可训练参数。
通过多层卷积和子采样,将7个输入帧转换为128D特征向量,捕获输入帧中的运动信息。输出层由与动作数量相同的单元组成,每个单元完全连接到C6层的128个单元。
input—>H1
? ? ? 神经网络的输入为7张大小为60*40的连续帧,7张帧通过事先设定硬核(hardwired kernels)获得5种不同特征:灰度、x方向梯度、y方向梯度、x方向光流、y方向光流,前面三个通道的信息可以直接对每帧分别操作获取,后面的光流(x,y)则需要利用两帧的信息才能提取,因此H1层的特征maps数量:(7+7+7+6+6=33),特征maps的大小依然是60* 40。
H1—>C2
? ? ?用两个7*7*3的3D卷积核对5个channels分别进行卷积,获得两个系列,每个系列5个channels(7* ?7表示空间维度,3表示时间维度,也就是每次操作3帧图像),同时,为了增加特征maps的个数,在这一层采用了两种不同的3D卷积核,因此C2层的特征maps数量为:(((7-3)+1)* ?3+((6-3)+1)* ?2)* ?2=23* ?2。这里右乘的2表示两种卷积核。特征maps的大小为:((60-7)+1)* ?((40-7)+1)=54 * 34。然后为卷积结果加上偏置套一个tanh函数进行输出。(典型神经网。)
C2—>S3
? ?2x2池化,下采样。下采样之后的特征maps数量保持不变,因此S3层的特征maps数量为:23 *2。特征maps的大小为:((54 / 2) * ?(34 /2)=27 ?*17
S3—>C4
? ?为了提取更多的图像特征,用三个7*6*3的3D卷积核分别对各个系列各个channels进行卷积,获得6个系列,每个系列依旧5个channels的大量maps。
我们知道,从输入的7帧图像获得了5个通道的信息,因此结合总图S3的上面一组特征maps的数量为((7-3)+1) * 3+((6-3)+1) * 2=23,可以获得各个通道在S3层的数量分布:
前面的乘3表示gray通道maps数量= gradient-x通道maps数量= gradient-y通道maps数量=(7-3)+1)=5;
后面的乘2表示optflow-x通道maps数量=optflow-y通道maps数量=(6-3)+1=4;
假设对总图S3的上面一组特征maps采用一种7 6 3的3D卷积核进行卷积就可以获得:
((5-3)+1)* 3+((4-3)+1)* 2=9+4=13;
三种不同的3D卷积核就可获得13* 3个特征maps,同理对总图S3的下面一组特征maps采用三种不同的卷积核进行卷积操作也可以获得13*3个特征maps,
因此C4层的特征maps数量:13* 3* 2=13* 6
C4层的特征maps的大小为:((27-7)+1)* ((17-6)+1)=21*12
然后加偏置套tanh。
C4—>S5
3X3池化,下采样。此时每个maps的大小:7* 4。通道maps数量分布情况如下:
gray通道maps数量= gradient-x通道maps数量= gradient-y通道maps数量=3
optflow-x通道maps数量=optflow-y通道maps数量=2;
S5—>C6
? ? ? 进行了两次3D卷积之后,时间上的维数已经被压缩得无法再次进行3D卷积(两个光流channels只有两个maps)。此时对各个maps用7*42D卷积核进行卷积,加偏置套tanh(烦死了!),获得C6层。C6层维度已经相当小,flatten为一列有128个节点的神经网络层。
C6—>output
? ? ? 经典神经网络模型两层之间全链接,output的节点数目随标签而定。 ?
下面是整个过程中3DCNN各通道数量变化情况以及特征maps大小变化情况:
?参考:3D CNN_The Thinker-CSDN博客
深度学习之3D卷积神经网络_zlinxi-CSDN博客_3d卷积神经网络
????????
|