LiSA激活函数
文章链接:Linearized sigmoidal activation: A novel activation function with tractable non-linear characteristics to boost representation capability
年份:2018年
简介
本文提出了一种新的线性化Sigmoid的激活函数称为LiSA激活函数,它是具有饱和与非饱和激活函数的优点,该函数为非饱和的分段激活函数,将数据分为三个区间,单个区间内的数据是线性关系,而不同区间内的数据点是非线性关系。具体的被表示为:
f
(
x
)
=
{
α
x
?
α
+
1
,
x
>
1
x
,
0
≤
x
≤
1
β
x
,
x
<
0
f(x) = \begin{cases} \alpha x-\alpha+1, &x>1\\ x, &0\le x\le 1 \\ \beta x ,&x<0\end{cases}
f(x)=??????αx?α+1,x,βx,?x>10≤x≤1x<0?
α
\alpha
α控制着正区域曲线的斜率,
β
\beta
β控制着负区域曲线的斜率,而且LiSA可以形成大多数的激活函数,如ReLU、Leaky ReLU等。 该函数的对x的导数为:
f
′
(
x
)
=
{
α
,
x
>
1
1
,
0
≤
x
≤
1
β
,
x
<
0
f^\prime(x) = \begin{cases} \alpha , &x>1\\ 1, &0\le x\le 1 \\ \beta ,&x<0\end{cases}
f′(x)=??????α,1,β,?x>10≤x≤1x<0? 参数
α
\alpha
α和
β
\beta
β可以人工定义为超参数,也可以在训练中进行学习自适应的参数。
提出的激活函数(LiSA)有两个超参数:
α
\alpha
α和
β
\beta
β。
α
\alpha
α和
β
\beta
β的选择是基于经验评价。在实验中观察到LiSA参数的最佳值一般在
0.15
~
0.25
0.15\sim0.25
0.15~0.25之间。当
α
=
β
\alpha = \beta
α=β时,单斜率的LiSA的最佳参数值在
0.15
0.15
0.15左右。LiSA的函数图像如下图: LiSA的导数图像为:
分析
- 当
α
=
β
\alpha=\beta
α=β时,LiSA的参数最开始随着系数值的增大,模型精度也随着增大,但增大到一定程度后,随着系数值的增大,模型进度随着减小,试验表明,此时的最佳参数值为0.15左右。
- 当
α
≠
β
\alpha \neq\beta
α?=β时,当
α
=
0.25
\alpha=0.25
α=0.25,
β
=
0.15
\beta=0.15
β=0.15,模型达到最高的精度。而且此时的模型精度比
α
=
β
\alpha=\beta
α=β时的模型精度要高,说明正区域和负区域提供不同的激活行为可以提高模型的性能。
- 该激活函数为非饱和的无界函数,梯度不连续,该函数为非光滑函数,通过一个简单的试验,不能表明
α
\alpha
α和
β
\beta
β的最佳值,当模型的深度,数据集不同时,
α
\alpha
α和
β
\beta
β可能有所不同。
|