开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> （2020李宏毅）机器学习-Backpropagation -> 正文阅读

[人工智能]（2020李宏毅）机器学习-Backpropagation

在这里插入图片描述

文章目录

**Gradient Descent**
**Chain Rule**
**Backpropagation**
**Forward pass**
**Backward pass**

Backpropagation – Summary
代码实现

Gradient Descent

Network parameters $\theta=\left\{w_{1}, w_{2}, \cdots, b_{1}, b_{2}, \cdots\right\}$

Starting Parameters $\theta^{0} \longrightarrow \theta^{1} \longrightarrow \quad \theta^{2} \longrightarrow……$

$\nabla \mathrm{L}\left(\theta^{0}\right) \quad \theta^{1}=\theta^{0}-\eta \nabla \mathrm{L}\left(\theta^{0}\right)$

$\nabla \mathrm{L}\left(\theta^{1}\right) \quad \theta^{2}=\theta^{1}-\eta \nabla \mathrm{L}\left(\theta^{1}\right)$

Millions of parameters ……

To compute the gradients efficiently,
we use backpropagation.

Chain Rule

Case1

$\quad z=h(y)$

$\Delta x \rightarrow \Delta y \rightarrow \Delta z \quad$

$\frac{d z}{d x}=\frac{d z}{d y} \frac{d y}{d x}$

Case 2

$\quad y=h(s) \quad z=k(x, y)$

在这里插入图片描述
$\frac{d z}{d s}=\frac{\partial z}{\partial x} \frac{d x}{d s}+\frac{\partial z}{\partial y} \frac{d y}{d s}$

Backpropagation

在这里插入图片描述

$L(\theta)=\sum_{n=1}^{N} C^{n}(\theta) --> \frac{\partial L(\theta)}{\partial w}=\sum_{n=1}^{N} \frac{\partial C^{n}(\theta)}{\partial w}$

在这里插入图片描述

计算 $\frac{\partial C}{\partial w}$ ,可以计算 $\frac{\partial z}{\partial w} \frac{\partial C}{\partial z}$

Forward pass:
Compute 𝜕𝑧/𝜕𝑤 for all parameters

Backward pass:
Compute 𝜕𝐶/𝜕𝑧 for all activation
function inputs z

Forward pass

先考虑 $\frac{\partial z}{\partial w}$ 这一项, 完全可以秒算出来, $\frac{\partial z}{\partial w_{1}}=x_{1}, \frac{\partial z}{\partial w_{2}}=x_{2}$

在这里插入图片描述

规律：求 $\frac{\partial z}{\partial w}$ ，就是看w前面连接的input是什么，那微分后的 $\frac{\partial z}{\partial w}$ 值就是什么

Backward pass

在这里插入图片描述

从右往左开始计算

在这里插入图片描述

op-amp

这里每一个op-amp的放大系数就是 $\sigma^{\prime}\left(z_{1}\right), \sigma^{\prime}\left(z_{2}\right), \sigma^{\prime}\left(z_{3}\right), \sigma^{\prime}\left(z_{4}\right)$ , 所以整一个流程就是，先快速地计算出 $\frac{\partial C}{\partial z_{5}}$ 和 $\frac{\partial \underline{C}}{\partial z_{6}}$ , 然后再把这两个偏微分的值乘上路径上的weight汇集到neuron上面，再通过op-amp的放大，就可以得到 $\frac{\partial C}{\partial z_{3}}$ 和 $\frac{\partial C}{\partial z_{4}}$ 这两个偏微分的值，再让它们乘上一些weight, 并且通过一个op-amp，就得到 $\frac{\partial C}{\partial z_{1}}$ 和 $\frac{\partial C}{\partial z_{3}}$ 这两个偏微分的值，这样就计算完了，这个步骤, 就叫做Backward pass
在做Backward pass的时候，实际上的做法就是建另外一个neural network, 本来正向neural network里面的 activation function都是sigmoid function, 而现在计算Backward pass的时候，就是建一个反向的neural network，它的activation function就是一个运算放大器op-amp, 每一个反向neuron的input是loss $l$ 对后面一层 layer的 $z$ 的偏微分 $\frac{\partial l}{\partial z^{\prime}}$ , output则是loss $l$ 对这个neuron的 $z$ 的偏微分 $\frac{\partial l}{\partial z}$ , 做Backward pass就是通过这样一个反向 neural network的运算, 把loss $l$ 对每一个neuron的 $z$ 的偏微分 $\frac{\partial l}{\partial z}$ 都给算出来

注：如果是正向做Backward pass的话，实际上每次计算一个 $\frac{\partial l}{\partial z}$ , 就需要把该neuron后面所有的 $\frac{\partial l}{\partial z}$ 都给计算一遍，会造成很多不必要的重复运算，如果写成code的形式, 就相当于调用了很多次重复的函数；而如果是反向做 Backward pass，实际上就是把这些调用函数的过程都变成调用“值"的过程，因此可以直接计算出结果，而不需要占用过多的堆栈空间

Backpropagation – Summary

在这里插入图片描述

反向传播斯坦福例子：
在这里插入图片描述

在这里插入图片描述

代码实现

简单实现了加法计算图

在这里插入图片描述

import numpy as np
class MulLayer:
    def __init__(self):
        self.x = None
        self.y = None
      
    def forward(self,x,y):
        self.x = x
        self.y = y
        out = x * y
      
        return out
    def backward(self,dout):#dout为上一层的导数
        dx = dout * self.y
        dy = dout * self.x
      
        return dx,dy


apple = 100
apple_num = 2
tax = 1.1

mul_apple_layer = MulLayer()
mul_tax_layer = MulLayer()

#forward
apple_price = mul_apple_layer.forward(apple,apple_num)
price = mul_tax_layer.forward(apple_price,tax)
#backward
dprice = 1
dapple_price,dtax = mul_tax_layer.backward(dprice)
dapple,dapple_num = mul_apple_layer.backward(dapple_price)

print("price:",int(price))
print("dApple:",dapple)
print("dApple_num:",int(dapple_num))
print("dTax:",dtax)

price: 220
dApple: 2.2
dApple_num: 110
dTax: 200

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2021-09-24 10:34:02 更:2021-09-24 10:36:36

360图书馆购物三丰科技阅读网日历万年历 2025年10日历

-2025/10/18 0:04:39-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码