IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 深度学习(30)随机梯度下降七: 多层感知机梯度(反向传播算法) -> 正文阅读

[人工智能]深度学习(30)随机梯度下降七: 多层感知机梯度(反向传播算法)

深度学习(30)随机梯度下降七: 多层感知机梯度(反向传播算法)


tens
Recap
Chain Rule
在这里插入图片描述

Multi-output Perceptron
在这里插入图片描述

? E ? w j k = ( O k ? t k ) O k ( 1 ? O k ) x j 0 \frac{?E}{?w_{jk}} =(O_k-t_k)O_k (1-O_k)x_j^0 ?wjk??E?=(Ok??tk?)Ok?(1?Ok?)xj0?
Multi-Layer Perception

1. 多层感知机模型

在这里插入图片描述
在这里插入图片描述

? E ? w j k = ( O k ? t k ) O k ( 1 ? O k ) x j 0 \frac{?E}{?w_{jk}}=(O_k-t_k)O_k (1-O_k)x_j^0 ?wjk??E?=(Ok??tk?)Ok?(1?Ok?)xj0? → \to ? E ? w j k = ( O k ? t k ) O k ( 1 ? O k ) x j J \frac{?E}{?w_{jk}}=(O_k-t_k)O_k (1-O_k)x_j^J ?wjk??E?=(Ok??tk?)Ok?(1?Ok?)xjJ?设: δ k K = ( O k ? t k ) O k ( 1 ? O k ) δ_k^K=(O_k-t_k)O_k (1-O_k) δkK?=(Ok??tk?)Ok?(1?Ok?)注: 这里可以将 δ k K δ_k^K δkK?理解为是k节点的一个属性; ? E ? w j k = δ k K x j J \frac{?E}{?w_{jk}} =δ_k^K x_j^J ?wjk??E?=δkK?xjJ?

2. 多层感知机梯度

在这里插入图片描述

? E ? w i j = ? ? w i j 1 2 ∑ k ∈ K ( O k ? t k ) 2 \frac{?E}{?w_{ij}} =\frac{?}{?w_{ij} } \frac{ 1}{2} ∑_{k∈K}(O_k-t_k)^2 ?wij??E?=?wij???21?kK?(Ok??tk?)2 ? E ? w i j = ∑ k ∈ K ( O k ? t k ) ? ? w i j O k \frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k ) \frac{ ?}{?w_{ij}} O_k ?wij??E?=kK?(Ok??tk?)?wij???Ok?
? E ? w i j = ∑ k ∈ K ( O k ? t k ) ? ? w i j σ ( x k ) \frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k ) \frac{ ?}{?w_{ij}} σ(x_k ) ?wij??E?=kK?(Ok??tk?)?wij???σ(xk?) ? E ? w i j = ∑ k ∈ K ( O k ? t k ) ? σ ( x k ) ? x k ? x k ? w i j \frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k ) \frac{?σ(x_k )}{?x_k } \frac{?x_k}{?w_{ij} } ?wij??E?=kK?(Ok??tk?)?xk??σ(xk?)??wij??xk?? ? E ? w i j = ∑ k ∈ K ( O k ? t k ) σ ( x k ) ( 1 ? σ ( x k ) ) ? x k ? w i j \frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k ) σ(x_k )(1-σ(x_k ))\frac{?x_k}{?w_{ij} } ?wij??E?=kK?(Ok??tk?)σ(xk?)(1?σ(xk?))?wij??xk?? ? E ? w i j = ∑ k ∈ K ( O k ? t k ) O k ( 1 ? O k ) ? x k ? w i j \frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k )O_k (1-O_k)\frac{?x_k}{?w_{ij} } ?wij??E?=kK?(Ok??tk?)Ok?(1?Ok?)?wij??xk?? ? E ? w i j = ∑ k ∈ K ( O k ? t k ) O k ( 1 ? O k ) ? x k ? O j ? O j ? w i j \frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k )O_k (1-O_k)\frac{?x_k}{?O_j} \frac{?O_j}{?w_{ij}} ?wij??E?=kK?(Ok??tk?)Ok?(1?Ok?)?Oj??xk???wij??Oj?? ∵ x k K = O 0 J w 0 k J + O 1 J w 1 k J + ? + O j J w j k J + ? + O n J w n k J \because x_k^K=O_0^J w_{0k}^J+O_1^J w_{1k}^J+?+O_j^J w_{jk}^J+?+O_n^J w_{nk}^J xkK?=O0J?w0kJ?+O1J?w1kJ?+?+OjJ?wjkJ?+?+OnJ?wnkJ? ∴ ? E ? w i j = ∑ k ∈ K ( O k ? t k ) O k ( 1 ? O k ) w j k ? O j ? w i j \therefore\frac{?E}{?w_{ij}} =∑_{k∈K}(O_k-t_k )O_k (1-O_k)w_{jk} \frac{?O_j}{?w_{ij}} ?wij??E?=kK?(Ok??tk?)Ok?(1?Ok?)wjk??wij??Oj?? ? E ? w i j = ? O j ? w i j ∑ k ∈ K ( O k ? t k ) O k ( 1 ? O k ) w j k \frac{?E}{?w_{ij}} = \frac{?O_j}{?w_{ij}}∑_{k∈K}(O_k-t_k )O_k (1-O_k)w_{jk} ?wij??E?=?wij??Oj??kK?(Ok??tk?)Ok?(1?Ok?)wjk? ∵ ? O j ? w i j = ? O j ? x j ? x j ? w i j = O j ( 1 ? O j ) ? x j ? w i j \because\frac{?O_j}{?w_{ij}}=\frac{?O_j}{?x_j} \frac{?x_j}{?w_{ij}} =O_j (1-O_j)\frac{?x_j}{?w_{ij}} ?wij??Oj??=?xj??Oj???wij??xj??=Oj?(1?Oj?)?wij??xj?? ∴ ? E ? w i j = O j ( 1 ? O j ) ? x j ? w i j ∑ k ∈ K ( O k ? t k ) O k ( 1 ? O k ) w j k \therefore\frac{?E}{?w_{ij}} =O_j (1-O_j) \frac{?x_j}{?w_{ij}}∑_{k∈K}(O_k-t_k ) O_k (1-O_k)w_{jk} ?wij??E?=Oj?(1?Oj?)?wij??xj??kK?(Ok??tk?)Ok?(1?Ok?)wjk? ? E ? w i j = O j ( 1 ? O j ) O i ∑ k ∈ K ( O k ? t k ) O k ( 1 ? O k ) w j k \frac{?E}{?w_{ij}} =O_j (1-O_j)O_i ∑_{k∈K}(O_k-t_k ) O_k (1-O_k)w_{jk} ?wij??E?=Oj?(1?Oj?)Oi?kK?(Ok??tk?)Ok?(1?Ok?)wjk? ∵ ( O k ? t k ) O k ( 1 ? O k ) = δ k \because (O_k-t_k ) O_k (1-O_k )=δ_k (Ok??tk?)Ok?(1?Ok?)=δk? ∴ ? E ? w i j = O i O j ( 1 ? O j ) ∑ k ∈ K δ k w j k \therefore \frac{?E}{?w_{ij}}=O_i O_j (1-O_j)∑_{k∈K}δ_k w_{jk} ?wij??E?=Oi?Oj?(1?Oj?)kK?δk?wjk?设: δ j J = O j ( 1 ? O j ) ∑ k ∈ K δ k w j k δ_j^J=O_j (1-O_j)∑_{k∈K}δ_k w_{jk} δjJ?=Oj?(1?Oj?)kK?δk?wjk?则: ? E ? w i j = δ j J O i I \frac{?E}{?w_{ij}}=δ_j^J O_i^I ?wij??E?=δjJ?OiI?注: 可以把 δ k K δ_k^K δkK?理解为当前连接w_ij对误差函数的贡献值;

3. 传播规律小结

  • 输出层
    ? E ? w j k = δ k ( K ) O j \frac{?E}{?w_{jk}}=δ_k^{(K)} O_j ?wjk??E?=δk(K)?Oj? δ k ( K ) = O k ( 1 ? O k ) ( O k ? t k ) δ_k^{(K)}=O_k (1-O_k)(O_k-t_k) δk(K)?=Ok?(1?Ok?)(Ok??tk?)
  • 倒数第二层
    ? E ? w i j = δ j ( J ) O i \frac{?E}{?w_{ij}}=δ_j^{(J)} O_i ?wij??E?=δj(J)?Oi? δ j ( J ) = O j ( 1 ? O j ) ∑ k δ k ( K ) w j k δ_j^{(J)}=O_j (1-O_j)∑_kδ_k^{(K)} w_{jk} δj(J)?=Oj?(1?Oj?)k?δk(K)?wjk?
  • 倒数第三层
    ? E ? w n i = δ i ( I ) O n \frac{?E}{?w_{ni}}=δ_i^{(I)} O_n ?wni??E?=δi(I)?On? δ i ( I ) = O i ( 1 ? O i ) ∑ j δ j ( J ) w i j δ_i^{(I)}=O_i (1-O_i)∑_jδ_j^{(J)} w_{ij} δi(I)?=Oi?(1?Oi?)j?δj(J)?wij?其中 O n O_n On?为倒数第三层的输入,即倒数第四层的输出。

依照此规律,只需要循环迭代计算每一层每个节点的 δ k ( K ) δ_k^{(K)} δk(K)? δ j ( J ) δ_j^{(J)} δj(J)? δ i ( I ) δ_i^{(I)} δi(I)?等值即可求得当前层的偏导数,从而得到每层权值矩阵W的梯度,再通过梯度下降算法迭代优化网络参数即可。

参考文献:
[1] 龙良曲:《深度学习与TensorFlow2入门实战》

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-28 09:00:22  更:2021-08-28 09:00:27 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 17:56:04-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码