Vgg11-19
理解:
输入图像为2242243,大小为:224224,深度为:3(通道数) 3364卷积:33表示卷积核大小,64为图像深度,即卷积核的个数 卷积核:只改变图像的深度(即卷积核的个数),不改变图像的大小 池化:只改变图像的大小,不改变图像的深度 Tensor: 就像ndarray一样,一维Tensor叫Vector,二维Tensor叫Matrix,三维及以上称为Tensor
不易理解的地方:
- 参数说明:其中的64,128,512都是手动指定的(这也是为什么到了第五次卷积核池化之后图像深度仍是512的原因)包括后面的全连接层4096,1000
- 77512过渡到114096:他是怎样有多维转化为以为的?其实在他们之间有一个过渡函数x = x.view(x.size(0), -1)。因为分类器是一个简单的nn.Linear()结构,输入输出都是维度为一的值,x = x.view(x.size(0), -1) 这句话的出现就是为了将前面多维度的tensor展平成一维。其中-1表示会自适应的调整剩余的维度,(直接填-1表示拉直, 等价于tensor_name.flatten()),从这里我们可以看得出来,view函数如其名,只改变“看起来”的样子,不会改变张量在内存中的排列。可参考:链接1和链接2
- 全连接层:一共有三个全连接层,在前两个全连接层是由relu和Dropout构成,而最后一层是用softmax进行激活,对于softmax来说,它能够将图片的输入转化为类别的输出。
扩充:结合VGG-16视频及文档学习
总结不易,喜欢请点赞!!!!!
|