LeNet
数据集是MNIST数据集,大小为28*28,但是我们padding=2,在上下左右都加了4行变成32 * 32的矩阵 在进行一个卷积层,这个卷积层有6个output通道
在此之前,我们介绍一下nn.Conv2d这个函数
net = torch.nn.Sequential(
Reshape(),
nn.Conv2d(1, 6, kernel_size=5, padding=2), nn.Sigmoid(),
nn.AvgPool2d(kernel_size=2, stride=2),
nn.Conv2d(6, 16, kernel_size=5), nn.Sigmoid(),
nn.AvgPool2d(kernel_size=2, stride=2),
nn.Flatten(),
nn.Linear(16 * 5 * 5, 120), nn.Sigmoid(),
nn.Linear(120, 84), nn.Sigmoid(),
nn.Linear(84, 10))
X = torch.rand(size=(1, 1, 28, 28), dtype=torch.float32)
直接上代码比较容易理解 一开始,我们会通过一个input通道为1,output通道为6的卷积层,我们的输入一开始 1 * 1 * 28 * 28,经过padding 变成1 * 1 * 32 * 32 卷积后变成 1* 6 28 * 28,用sigmod函数激活一下 经过池化,这个池化层的大小为一个2 * 2的矩阵,步伐为2,经过计算(我真的自己算了) 变成一个 1 * 6 * 14 * 14的矩阵 再经过一个卷积层变成 1 * 16 * 10 * 10 的矩阵 再经过一个池化层变成 1 * 16 * 5 * 5的矩阵 拉平变成一个 1 * 400 的矩阵,拉平就是变成一行 通过一个全连接层变成一个 1 * 120 的矩阵 在通过一个全连接层变成 1 84的矩阵 最后经过一个output全连接层变成一个10维的标量
这个就是我们LeNet, 你要仔细思考,这个网络层关键吗,他不关键。 关键的是这个思想,什么思想,我们都是把一个图像通过多通道提取特征,然后把这些通道变成一个一维的向量
其实你看这个网络层并没有用到一些很关键的技巧
AlexNe(进化的LeNet)
没什么说的。。真的,就是LeNet的升级版,就是换汤不换药,you konw
import torch
from torch import nn
from d2l import torch as d2l
net = nn.Sequential(
# 这里,我们使用一个11*11的更大窗口来捕捉对象。
# 同时,步幅为4,以减少输出的高度和宽度。
# 另外,输出通道的数目远大于LeNet
nn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2),
# 减小卷积窗口,使用填充为2来使得输入与输出的高和宽一致,且增大输出通道数
nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2),
# 使用三个连续的卷积层和较小的卷积窗口。
# 除了最后的卷积层,输出通道的数量进一步增加。
# 在前两个卷积层之后,汇聚层不用于减少输入的高度和宽度
nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),
nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),
nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),
nn.MaxPool2d(kernel_size=3, stride=2),
nn.Flatten(),
# 这里,全连接层的输出数量是LeNet中的好几倍。使用dropout层来减轻过度拟合
nn.Linear(6400, 4096), nn.ReLU(),
nn.Dropout(p=0.5),
nn.Linear(4096, 4096), nn.ReLU(),
nn.Dropout(p=0.5),
# 最后是输出层。由于这里使用Fashion-MNIST,所以用类别数为10,而非论文中的1000
nn.Linear(4096, 10))
不多说,换汤不换药
VGG(升级版的AlexNet)
AlexNet的代码不好看,而且没有美感,VGG就是封装了一些块,这些快就是简化版的AlexNet你可以这么理解,就是这个VGG AlextNet LeNet本质上是一个东西,没有什么差别 因为这个计算量太大,我还没有买到google colab pro就不测试了
|