深度学习—从入门到放弃（四）优化器

1.案例引入-MNIST手写数字识别

现代深度学习优化中的许多核心思想（和技巧）可以在训练 MLP 以解决图像分类任务的中进行说明。
在这里插入图片描述
在这里我们使用的是手写数字的 MNIST 数据集，上图为MNIST数据集的部分展示。

1.1 网络构建思路

1.网络种类：MLP
通常来说在对于图片的分类上，卷积神经网络（CNN）应用更为广泛且效果更好，但是鉴于目前只了解了MLP，那么请允许我用MLP来进行引入！
在这里我们选择一个只有一个隐藏层的MLP。
2.数据输入
我们拿到的原始数据是图片，而神经网络的输入一般为vector（也就是矢量），所以在这里我们放大每一张图片，将其中的每一像素块的位置及亮度用一个大的矩阵来表示，如下图：
在这里插入图片描述
3.结果输出
对于MLP分类任务而言，输出的是十个分类标签，因此我们需要将输出结果转换为输入数字分别为十个分类标签的概率。这里我们就要用到softmax函数，这样最终的输出就为总和为1的概率分布。
关于softmax
在这里插入图片描述

1.2 数据准备

def load_mnist_data(change_tensors=False, download=False):
  """Load training and test examples for the MNIST digits dataset

  Returns:
    train_data (tensor): training input tensor of size (train_size x 784)
    train_target (tensor): training 0-9 integer label tensor of size (train_size)
    test_data (tensor): test input tensor of size (70k-train_size x 784)
    test_target (tensor): training 0-9 integer label tensor of size (70k-train_size)

  """
  # Load train and test sets
  train_set = datasets.MNIST(root='.', train=True, download=download,
                             transform=torchvision.transforms.ToTensor())
  test_set = datasets.MNIST(root='.', train=False, download=download,
                            transform=torchvision.transforms.ToTensor())

  # Original data is in range [0, 255]. We normalize the data wrt its mean and std_dev.
  ## Note that we only used *training set* information to compute mean and std
  mean = train_set.data.float().mean()
  std = train_set.data.float().std()

  if change_tensors:
    # Apply normalization directly to the tensors containing the dataset
    train_set.data = (train_set.data.float() - mean) / std
    test_set.data = (test_set.data.float() - mean) / std
  else:
    tform = torchvision.transforms.Compose([torchvision.transforms.ToTensor(),
                                            torchvision.transforms.Normalize(mean=[mean / 255.], std=[std / 255.])
                                            ])
    train_set = datasets.MNIST(root='.', train=True, download=download,
                               transform=tform)
    test_set = datasets.MNIST(root='.', train=False, download=download,
                              transform=tform)

  return train_set, test_set


train_set, test_set = load_mnist_data(change_tensors=True)

1.3 建立网络

class MLP(nn.Module):

  def __init__(self, in_dim=784, out_dim=10, hidden_dims=[], use_bias=True):
    """建立MLP

    Args:
        in_dim (int): 输入数据的维度28*28=784
        out_dim (int): 类的数量10
        hidden_dims (list): 线性模型构成了一种非常特殊的 MLP：它们等效于具有零隐藏层的 MLP 
    """

    super(MLP, self).__init__()

    self.in_dim = in_dim
    self.out_dim = out_dim
 
    if len(hidden_dims) == 0:
      layers = [nn.Linear(in_dim, out_dim, bias=use_bias)]#在这里我们建立的是零隐藏层的 MLP 
    else:
      layers = [nn.Linear(in_dim, hidden_dims[0], bias=use_bias), nn.ReLU()]
      for i, hidden_dim in enumerate(hidden_dims[:-1]):
        layers += [nn.Linear(hidden_dim, hidden_dims[i + 1], bias=use_bias),
                   nn.ReLU()]

      # Add final layer to the number of classes
      layers += [nn.Linear(hidden_dims[-1], out_dim, bias=use_bias)]

    self.main = nn.Sequential(*layers)

  def forward(self, x):
    # 图片转 vector
    transformed_x = x.view(-1, self.in_dim)
    hidden_output = self.main(transformed_x)
    output = F.log_softmax(hidden_output, dim=1)#softmax输出概率分布
    return output

MLP(
(main): Sequential(
(0): Linear(in_features=784, out_features=10, bias=True)
)
)

在结束对神经网络的结构设计之后，我们就需要开始编写训练神经网络的代码，而优化器的选择就变成了一个至关重要的问题。

我们现在有一个带有相应可训练参数的模型以及一个要优化的目标函数（在这里我们采用分类任务中常用的交叉熵损失作为目标函数）。我们下一步要去哪里？我们如何找到“好的”参数配置？

2.梯度下降

相信大家对于梯度下降都不陌生，在简单线性神经网络里我们详细的说到了梯度下降的具体操作步骤，但是今天我们换一个思路，梯度下降在哪些情况里是最优选择呢？

要想回答这个问题，我们先引入这么一个场景：
在这里插入图片描述
如果你想到达这个二次函数的最低点，那么你可以一直向前走，或者一直后退，直到到达谷底。这是一个非常简单的过程，因为自始至终你只用选择前进或者后退这两个方向；

那么再考虑一下现实世界中用于深度学习训练的数据，它们之中很多都是高维数据，换句话说，优化目标函数时可选的方向变得非常多，而这个时候单纯朝着一个方向走就行不通了，我们需要考虑每个方向对于优化当前目标函数的影响，虽然这样费时费力，但是总归是可以按部就班完成优化的目的。

以上情景也被称作random search，即随机搜索过程，而梯度下降里层层迭代最小化损失函数的方法就与我们在高维数据中考虑每个方向对于优化当前目标函数的影响的方法不谋而合！

总结：梯度下降可以用于处理高维数据，但是相应也会升高计算成本
一句话形容梯度下降：一直向前走，但是每一步都小心翼翼

3.momentum梯度动量下降

同样的我们先来引入一个场景：
在这里插入图片描述
想象我们要到达上面这三个二次函数的最低点，对于开口较大的二次函数来说，坡度会比较缓，也就是说我们可以以较大的步长走向最低点；而对于开口较小，即坡度较陡的二次函数来说则是正好相反，我们必须以一个较小的步长前进，不然很可能一步跨过最低点。这里的步长指梯度下降中的学习率这一超参数。

基于以上情景，我们再回到现实世界的数据中去，如果在梯度下降的过程中既有需要较小步长，又有需要较大步长的时候该怎么办呢？我们可以将整个梯度下降过程想象为一个等高线图，我们从一个崎岖不平的山的山顶出发，刚开始十分陡峭，但是山势在山腰往下逐渐平缓，因此此时就需要我们走一步看一步，根据上一步的走法来调整下一步。
在这里插入图片描述
可以看到上一节说到的梯度下降在这种情况下表现得并不好。

而momentum方法可以确保在平缓的地方增大步长梯度下降，在陡峭的地方减小步长梯度下降。而之所以能达到这种效果是因为momentum在梯度下降里添加了一个 $\beta(w_t-w_t-_1)$ ，将当前梯度下降与上一步梯度下降联系起来，利用上一次的结果不断进行修正，循环往复。
在这里插入图片描述