[人工智能] 神经网络中的激活函数为什么要均值为0

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 神经网络中的激活函数为什么要均值为0 -> 正文阅读

[人工智能]神经网络中的激活函数为什么要均值为0

均值为0。来定义标准正态

引入激活函数？

如果不用激活函数（其实相当于激励函数是f(x)=x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与没有隐藏层效果相当，这种情况就是最原始的感知机了。
sigmoid函数或者tanh函数，输出有界，很容易充当下一层输入。激活函数的作用是为了增加神经网络模型的非线性。否则你想想，没有激活函数的每层都相当于矩阵相乘，就算你叠加了若干曾之后，无非还是个矩阵相乘罢了。所以你没有非线性结构的话，根本就算不上什么神经网络。

图像预处理使用零均值化(zero-mean)
在深度学习中，一般我们会把喂给网络模型的训练图片进行预处理，使用最多的方法就是零均值化(zero-mean) / 中心化，即让所有训练图片中每个位置的像素均值为0，使得像素值范围变为[-128,127]，以0为中心。
当x全为正或者全为负时，每次返回的梯度都只会沿着一个方向发生变化，即梯度变化的方向就会向图中红色箭头所示，一会向上太多，一会向下太多。这样就会使得权重收敛效率很低。

但当x正负数量“差不多”时，就能对梯度变化方向进行“修正”，使其接近上图中蓝色箭头的方向，加速了权重的收敛。
在这里插入图片描述

Sigmoid函数
在这里插入图片描述

优点：
便于求导的平滑函数
缺点：
容易出现gradient vanishing

函数输出并不是zero-centered

幂运算相对来讲比较耗时
Gradient Vanishing
(1) 在上图中容易看出，当中较大或较小时，导数接近0，而后向传递的数学依据是微积分求导的链式法则，当前层的导数需要之前各层导数的乘积，几个小数的相乘，结果会很接近0
(2) Sigmoid导数的最大值是0.25，这意味着导数在每一层至少会被压缩为原来的1/4，通过两层后被变为1/16，…，通过10层后为1/1048576。请注意这里是“至少”，导数达到最大值这种情况还是很少见的。
zero-centered
当x全为正或者全为负时，每次返回的梯度都只会沿着一个方向发生变化，即梯度变化的方向就会向图中红色箭头所示，一会向上太多，一会向下太多。这样就会使得权重收敛效率很低。Sigmoid函数的输出值恒大于0，这会导致模型训练的收敛速度变慢。举例来讲，对，如果所有均为正数或负数，那么其对的导数总是正数或负数，这会导致如下图红色箭头所示的阶梯式更新，这显然并非一个好的优化路径。深度学习往往需要大量时间来处理大量数据，模型的收敛速度是尤为重要的。所以，总体上来讲，训练深度学习网络尽量使用zero-centered数据 (可以经过数据预处理实现) 和zero-centered输出。
在这里插入图片描述
tanh函数

优点：
解决了zero-centered的输出问题。
缺点：
gradient vanishing的问题和幂运算的问题仍然存在。
relu函数

优点：
解决了gradient vanishing问题 (在正区间)

计算速度非常快，只需要判断输入是否大于0

收敛速度远快于sigmoid和tanh
缺点：
ReLU的输出不是zero-centered

Dead ReLU Problem，指的是某些神经元可能永远不会被激活，导致相应的参数永远不能被更新。有两个主要原因可能导致这种情况产生: (1) 非常不幸的参数初始化，这种情况比较少见 (2) learning rate太高导致在训练过程中参数更新太大，不幸使网络进入这种状态。解决方法是可以采用Xavier初始化方法，以及避免将learning rate设置太大或使用adagrad等自动调节learning rate的算法。
改进：
1Leaky ReLU函数在这里插入图片描述
Leaky ReLU有ReLU的所有优点，外加不会有Dead ReLU Problem
2ELU

ELU有ReLU的基本所有优点，以及：不会有Deal ReLU问题输出的均值接近0，zero-centered