Deep Residual Learning for Image Recognition

摘要：
背景：神经网络越深越难训练
解决：提出一个残差学习框架
要点：使得各个层根据输入学习残差函数F(x)而不是原始未参考的函数H(x)
结论：使得网络更容易优化，并且网络加深也不会影响准确率

1. Introduction介绍

0.plain网络

可以看到，网络越深，误差越大。
在这里插入图片描述
在深度学习的驱使下，一个新的问题产生了：想要训练一个更好的网络，是不是直接堆叠更多的层就行？当然不是。
网络变深了就会有梯度消失/爆炸的问题，阻止了模型的收敛。然而

归一初始化normalized initialzation
中间归一化intermedizte normalization

很大程度上解决了这一问题。

1.1 退化问题

当更深的网络能够开始收敛时，退化问题就暴露出来了：随着网络深度的增加，准确率会达到饱和（不足为奇），然后准确率迅速退化。但是这种退化不是由过拟合引起的，在一个合适的深度模型中增加更多的层会导致更高的训练误差。
解决方案：改变添加更多层网络的方式

增加的层使用恒等映射

得到两个网络，一个是较浅的普通的网络，一个是使用恒等映射的较深网络。
结果：

较深的模型误差更小

问题：

解算器无法找到与构建的解相当或者更好的解（或无法在可行的时间内找到）

直接学习H(x)比较困难，所以学习F(x)

1.2 梯度消失问题Vanishing Gradient Problem

梯度消失会阻止网络的进一步训练。
eg:sigmoid激活函数的偏导数最大值为0.25。当网络中有很多层时，导致乘积的值会减少，直到某个点损失函数的偏导数接近于0，导致偏导数消失，称之为梯度消失。
两种解决方式：

使用其他的激活函数ReLU()
构建残差块

1.3 Deep residual learning framework深度残差学习框架

构造深层网络的解决方案：

通过恒等映射identity mapping构建增加的层

深层模型不应该产生比浅层模型更高的训练误差。但是SGD找不到这个效果。不能直接学习H(x)。

本文中通过引入深度残差学习框架来解决退化问题

残差块

本文让网络层拟合残差映射residual mapping，而不是直接来拟合所需的底层映射desired underlying mapping。拟合F(x)，而不是拟合H(x)。
将所需的底层映射表示为H(x)，让堆叠的非线性层来拟合另一个映射F(x)=H(x)-x。原始映射被转化成F(x)+x。
我们现在是恒等映射，将x直接恒等映射过来。想要H(x)=x，即要将F(x)推至0。

Residual block把我们需要解决的问题从通过将x映射y(H(x))转变成根据x求x与y(H(x))之间的距离F(x)。所谓反向传播就是网络输出一个值，然后与真实值做比较得到的一个误差损失，同时将这个损失做差改变参数，返回的损失大小取决于原来的损失和梯度，既然目的是改变参数，而问题是改变参数的力度过小，则可以减少参数的值，使损失对参数改变的力度相对增大。

残差映射比原始未参考的映射unreferenced mapping更容易优化，我们要将残差推到零

F(x)+x，即为identity mapping，通过前馈神经网络的shortcut connection来实现。shortcut只执行恒等映射，不添加额外的参数和计算复杂度，整个网络仍然可以使用SGD进行计算，无需修改解算器。
152层的残差网络复杂性仍低于VGG网络。
结果：

残差网络更易于优化
相同深度的plain网络和残差网络相比，残差网络的训练误差更小
泛化能力更好

2.Related Work 相关工作

2.1 Residual Representations

残差向量编码比原始向量编码更加有效；
一些方法表明：良好的重构或预处理可以简化优化问题。

2.2 shortcut Connections

多层感知机、Goging、deeply都采用了shortcut Connections，解决了梯度消失/爆炸问题。
我们的公式总是学习残差函数，我们的shortcut Connections从来不关闭，所有的信息总是要通过的。

3.Deep Residual Learning 深度残差学习

3.1 Residual Learning 残差学习

假设输入维度和输出维度相同时，我们学习残差函数F(x)=H(x)-x，而不是学习H(x)，因此原始函数变成F(x)+x，但是学习的难易程度不同。

学习F(x)=H(x)-x=0更加容易。并且模型不会变差，因为F(x)=0时，输入输出是相等的
如果添加的层可以被构造为恒等映射，那么更深的模型的训练误差应该不大于与其对应的浅层网络

3.2 通过shortcuts进行恒等映射

在这里插入图片描述

对于上面具有两层的残差块：

对于维度相同的映射：实线跳跃连接
残差F(x)：输入x乘第一层的权重，经过一次非线性激活，再乘第二层的权重。
再将得到的F(x)加恒等映射x后得y，再执行一次非线性激活。
在这里插入图片描述
对于维度不同的映射：虚线跳跃连接

这个Ws是用来匹配维度的，并且仅用来匹配维度。通过快捷连结来执行线性投影Ws来匹配维度。

一般残差块是两层或者三层的效果比较好，一层的效果没有优势。