该文章针对本人所需记录的点进行叙述。
1.神经网络
该名词源自生物学,是认知科学家对神经网络所做的一个类比解释,表示该算法学习的过程类似生物对外界刺激的反馈与记忆,如图所示。该图很像人的眼睛接收光信息的过程,各个角度的光具有不同的信息,经过眼球的处理,转化为大脑能明白的电信号。X是光,W是光差异的权重,Y是处理的结果。
2. 感知机与多层网络
2.1感知机
感知机,简单的理解是线性回归模型的输出+激活函数,如图:
感知机只能处理简单的线性问题,即存在一个线性超平面能将特征空间划分开。超平面(D-1维)就是特征空间(D维)的一个降维空间,如XOY坐标轴的超平面就是一条直线,XYZ三维空间的超平面是一个面。
2.2 多层网络
多层网络使用了多层神经元,好处——能解决非线性可分问题。与感知机相比,不再是简单的输入——输出,而是多了输入——隐含层(可单层可多层)——输出
3.梯度下降算法
如何评估一个神经网络模型的优劣,一般是将模型的输出置于一些测试标准中,如测输出值与标签值的MSE。由于神经网络至今还是不可描述(非解释性),不可图示(维度太高),模型的最优值是不可能直接求不出来的,只能采用方法去逼近最优值。这里的难点是逼近的可能是局部极值而不是全局极值。
3.1 梯度下降中的梯度
梯度,函数在该点处沿着该方向(此梯度的方向)变化最快,变化率最大。梯度也就是函数的一阶导数。梯度下降法中更新权值的公式如下: 本人以前的疑虑是,在这个公式中学习率X梯度是什么?为什么可以用它就可以求得新的权重值?答案就在下图中。
借用物理中速度与距离(路程)的关系来思考这个问题,横轴是时间轴T,纵轴是距离L,设速度为V,故L=VT,L的梯度(关于T的一阶导数)L’ = V,即当前时刻t的速度。因为当前求得速度是沿该方向移动最远的最大正向速度,而目标是最小化——求最短距离,所以需要取相反的方向。 学习率的大小取值为( 0 , 1 ],相当于对单位时间(1秒)进行缩小( 以防止跨过了最优值的位置 )。 综上所述,学习率乘梯度等于单位时间乘以速度得到路程(在此处的环境中),其中单位时间因学习率(缩小因子)进行了范围缩小,路程是旧节点到新节点的距离(上图 iteration4所示)。同时这也就是学习率为什么也叫步长的原因。
|