IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 浅谈神经网络之链式法则与反向传播算法 -> 正文阅读

[人工智能]浅谈神经网络之链式法则与反向传播算法

反向传播是训练神经网络最重要的算法,可以这么说,没有反向传播算法就没有深度学习的今天。但是反向传播算法设计一大堆数据公式概念。所以我们了解导数计算过程以及要介绍的新的复合函数多层求导计算过程。

链式法则

简单的说链式法则就是原本y对x求偏导,但是由于过程较为复杂,我们需要将函数进行拆分,通过链式进行分别求导,这样会使整个计算更为简单。

假设 f = k ( a + b c ) f = k(a + bc) f=k(a+bc),分别对
在这里插入图片描述
接下来我们用链式法则(将这些梯度表达式链接起来相乘。)对变量a、b、c进行求导:
d f d a = d f d v d v d a = k ? 1 = k \frac{d f}{d a}=\frac{d f}{d v} \frac{d v}{d a} = k * 1 = k dadf?=dvdf?dadv?=k?1=k

d f d a = d f d u d u d b = k ? c = k c \frac{d f}{d a}=\frac{d f}{d u} \frac{d u}{d b} = k * c = kc dadf?=dudf?dbdu?=k?c=kc

d f d a = d f d u d u d c = k ? b = k b \frac{d f}{d a}=\frac{d f}{d u} \frac{d u}{d c} = k * b = kb dadf?=dudf?dcdu?=k?b=kb

通俗都说,链式法则表明,知道z相对于y的瞬时变化率和y相对于x的瞬时变化率,就可以计算z相对于x的瞬时变化率作为这两个变化率的乘积。其实就是求复合函数都导数过程。

img

前向传播

前向传播(forward propagation或forward pass) 指的是:按顺序(从输入层到输出层)计算和存储神经网络中每层的结果。

对于中间变量:
z = W x + b \mathbf{z}=\mathbf{W}^{} \mathbf{x}+b z=Wx+b
W为参数权重,b为函数偏置,函数结果经过激活函数C(常见都激活函数Sigmoid、tanh、ReLU)
y = C ( z ) \mathbf{y}=C(z) y=C(z)
假设损失函数为l,真实值为h,我们可以计算单个数据样本的损失项,
L = l ( h , y ) L = l(h,y) L=lhy
在不考虑优化函数,单个神经元从输出到输出的过程结束,后面需要对误差进行反向传播,更新权值,重新计算输出。

反向传播

反向传播(backward propagation或backpropagation)指的是计算神经网络参数梯度的方法。 简言之,该方法根据微积分中的链式规则,按相反的顺序从输出层到输入层遍历网络。 该算法存储了计算某些参数梯度时所需的任何中间变量(偏导数)。

梯度下降

在说反向传播算法前,先简单了解一些梯度下降,对于损失函数(这里假设损失是MSE,即均方误差损失)
L ( w , b ) = 1 N ∑ i = 1 N ( y i ? f ( w x i + b ) ) 2 L(w, b)=\frac{1}{N} \sum_{i=1}^{N}\left(y_{i}-f\left(w x_{i}+b\right)\right)^{2} L(w,b)=N1?i=1N?(yi??f(wxi?+b))2
w i w_{i} wi?权重在某点的梯度为 d L d w i \frac{d L}{d w_{i}} dwi?dL?,设学习率为 α \alpha α(即步长,学习率为超参数,自己定义的),有梯度更新公式:
w i + 1 = w i ? α ? d L d w i w_{i+1}=w_{i}-\alpha * \frac{d L}{d w_{i}} wi+1?=wi??α?dwi?dL?
除此以为还有一些再次基础上优化都其他梯度下降方法: 小批量样本梯度下降(Mini Batch GD)、随机梯度下降(Stochastic GD)等

反向传播

反向传播计算损失函数相对于单个输入-输出示例的网络权重的梯度,为了说明这个过程,使用了具有2个输入和1个输出的2层神经网络,如下图所示:
在这里插入图片描述
不考虑优化算法,单个神经结构如下图所示,第一个单元将权重系数和输入信号的乘积相加。第二单元为神经元激活函数(反向传播需要在网络设计时激活函数可微的),如下图所示:
在这里插入图片描述
在反向传播的过程中,单个神经元将最终获得整个网络的最终输出值在自己的输出值上的梯度。链式法则指出,单个神经元应该将回传的梯度乘以它对其的输入的局部梯度,从而得到整个网络的输出对该门单元的每个输入值的梯度 ? l ? w i j \frac{\partial l}{\partial w_{ij}} ?wij??l?请添加图片描述

请添加图片描述

在这里插入图片描述

梯度公式, α \alpha α为学习率, α > 0 \alpha>0 α>0:
w : = w ? α d J ( w , b ) d w , b : = b ? α d J ( w , b ) d b w:=w-\alpha \frac{d J(w, b)}{d w}, \quad b:=b-\alpha \frac{d J(w, b)}{d b} w:=w?αdwdJ(w,b)?,b:=b?αdbdJ(w,b)?
对该例中权重梯度进行更新:
w ( x 1 ) 2 ′ = w ( x 1 ) 2 ? α ? l ? w x 1 1 w_{(x 1) 2}^{\prime}=w_{(x 1) 2}-\alpha\frac{\partial l}{\partial w_{x_{1}1}} w(x1)2?=w(x1)2??α?wx1?1??l?
w 21 ′ = w 21 ? α ? l ? w 21 w_{21}^{\prime}=w_{21}-\alpha\frac{\partial l}{\partial w_{21}} w21?=w21??α?w21??l?
. . . . . . ...... ......
根据链式法则求出所有的更新后的权重 W W W梯度,偏值使用同样的方法。通过反向传播,计算损失函数与当前神经元权重的最陡下降方向。然后,可以沿最陡下降方向修改权重,并以有效的方式降低损失。

反向传播代码实现:

def optimize(w, b, X, Y, num_iterations, learning_rate):
    costs = []

    for i in range(num_iterations):

        # 梯度更新计算函数
        grads, cost = propagate(w, b, X, Y)

        # 取出两个部分参数的梯度
        dw = grads['dw']
        db = grads['db']

        # 按照梯度下降公式去计算
        w = w - learning_rate * dw
        b = b - learning_rate * db

        if i % 100 == 0:
            costs.append(cost)
        if i % 100 == 0:
            print("损失结果 %i: %f" % (i, cost))
            print(b)
    params = {"w": w,
              "b": b}
              
    grads = {"dw": dw,
             "db": db}
    return params, grads, costs

def propagate(w, b, X, Y):
    m = X.shape[1]

    # 前向传播
    A = basic_sigmoid(np.dot(w.T, X) + b)
    cost = -1 / m * np.sum(Y * np.log(A) + (1 - Y) * np.log(1 - A))

    # 反向传播
    dz = A - Y
    dw = 1 / m * np.dot(X, dz.T)
    db = 1 / m * np.sum(dz)

    grads = {"dw": dw,
             "db": db}

    return grads, cost

代码中的参数参数:
w:权重,b:偏置,X特征,Y目标值,num_iterations总迭代次数,learning_rate学习率
basic_sigmoid: sigmoid激活函数
params: 更新后的参数字典
grads: 梯度
costs: 损失结果

参考文献 :

反向传播
前向传播、反向传播和计算图
Backpropagation

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-06-29 19:04:19  更:2022-06-29 19:04:48 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 1:58:55-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码