cnn-explainer

GitHub地址：cnn-explainer
论文地址：CNN Explainer: Learning Convolutional Neural Networks with Interactive Visualization

cnn-explainer将卷积神经网络每一个步骤全部可视化出来，能够清晰地看到每一步的操作，对于初学者理解CNN原理和计算过程是非常有帮助的。

cnn-explainer实现了一个简单的10层卷积神经网络，网络结构如下：

根据论文原文对此插图的说明

Illustration of Tiny VGG model used in CNN EXPLAINER: this model uses the same, but fewer, convolutional layers as the original VGGNet model . We trained it to classify 10 classes of images.

可以看出该模型结构为Tiny VGG，比原始的VGG模型更加简单，最后实现了对输入图像的10分类。

输入层

输入层图像大小为64×64@3，分为RGB三通道输入

conv_1_1

第一层卷积层，这一层使用10个卷积核，由最终输出图片大小为62×62，根据文章CNN网络的搭建中提到的计算公式可以计算出各个参数。卷积核大小应为3×3，步长为1，因为使用了10个卷积核，最后得到10个特征图。

在这里，我们选择意式咖啡(espresso)的图片，然后跟踪一个卷积核来查看卷积提取特征的过程
conv1跟踪
可以非常直观的看到图片RGB三通道经过一个卷积核提取特征生成特征图的过程：将三通道分别经过卷积核计算得到的结果累加后再加上bias，如果继续点击通道图片，可以更加详细地查看计算过程

计算过程
卷积核大小为3×3，与我们之前计算结果一致。

relu_1_1

激活函数，不做详细介绍，这里使用ReLu函数，计算过程如下
ReLu1
可以看到，遇到非负值时，输出不变，当遇到负值时，输出为0，符合ReLu计算过程，最终输出维度不变，仍为62×62@10.

conv_1_2

第二层卷积层，输出特征图大小为60×60，深度仍为10不变，则说明卷积核为10个，计算可得卷积核大小为3×3，步长为1，这里与conv_1_1基本相同，区别在于这里的输入是经过conv_1_1和relu_1_1处理后的深度为10的62×62的图像，所以在卷积运算时要分别对10个维度的数据分别计算后累加再加上bias才能得到结果。

conv2

relu_1_2

激活函数，与relu_1_1作用相同，输出仍为60×60@10，不做展示。

max_pool_1

第一层池化层。
卷积神经网络中池化层的作用可以总结为以下几点

特征不变性（feature invariant）
汇合操作使模型更关注是否存在某些特征而不是特征具体的位置
可看作是一种很强的先验，使特征学习包含某种程度自由度，能容忍一些特征微小的位移
特征降维
由于汇合操作的降采样作用，汇合结果中的一个元素对应于原输入数据的一个子区域（sub-region），因此汇合相当于在空间范围内做了维度约减（spatially dimension reduction），从而使模型可以抽取更广范围的特征，同时减小了下一层输入大小，进而减小计算量和参数个数
在一定程度上能防止过拟合的发生

简单来说，将卷积层的作用概括为提取图像特征，那么池化层的主要作用就是保留显著特征、降低特征维度，即压缩特征。

在这里，池化层使用最大池化（Max pooling）的方法，从项目中可以看到，输入数据经过池化层后输出为30×30，深度为10，则推断出卷积核大小为2×2，步长为2，下面进一步查看池化过程。

maxpool1
从这下面这张图片可以更为明显地看出，在一次池化后图像特征被较完整的保留下来，同时降低了维度。

池化前后

在这一层之后，还有两个卷积层（conv_2_1、conv_2_2），每次卷积操作后均有一次relu操作，然后会对结果再次池化，最终输出张量为13×13@10，并对这个结果做展平后送入全连接层。

flatten层

根据13×13@10这个结果维度，可以计算出每批次张量展平后的维度应为13×13×10 = 1690，将展平后结果送入全连接层，全连接层的输入维度为1690，输出维度应为10，最后经过softmax函数将多次提取、压缩得到的特征进行分类得到10分类的概率
softmax
我们选择的图片是意式咖啡(espresso)，从上图可以看到最后意式咖啡(espresso)计算出的概率也是最大的，为0.8808。