| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Depth Dropout: Efficient Training of Residual Convolutional Neural Networks -> 正文阅读 |
|
[人工智能]Depth Dropout: Efficient Training of Residual Convolutional Neural Networks |
学习笔记 背景对于现在的深度神经网络,训练起来既昂贵又耗时。论文中提出了一种方法,可以减少训练时间,同时保持与传统训练方法几乎相同的精度。这允许更快的实验和更好地使用计算资源。 介绍本文的贡献是通过沿 ResNet 模型的深度方向执行 dropout 来加速训练。 具体来说,在训练期间,我们逐个图像地随机绕过层,从而减少每个训练示例所需的计算量。 相关工作width dropout之前我们一直使用的dropout方法,就是在每次训练迭代和每个训练实例中,某个层内的有一部分神经元被随机置零,为了将此方法与此论文提出的方法区分开来,将其称为width dropout。一个称为dropout ratio的参数控制着任何单个神经元被抑制的概率。 残差网络与此方法对比,论文提出的dropout方法沿深度方向随机跳过整个层,将这种方法称为depth dropout。 与 width dropout 不同,这里的动机不是为了防止特征的共同适应,而是为了减少训练时间。 通过跳过整个层,可以完全避免这些层内的卷积操作,从而提高计算速度。 请注意,depth dropout是width dropout的补充,并且在训练深度卷积神经网络时都可以使用两者。 depth dropout1.为了方便,模型考虑原有resnet体系结构中,仅仅使得第n个残差块中有2残差单元来讲解depth dropout,如图(a)所示。
2.现在我们考虑原始残差网络的一种稍微广义的形式,其中我们允许卷积路径按以下因子进行缩放:
其中
a
n
a_n
an?来自伯努利分布,下面的
p
p
p 是预设的depth dropout ratio 。 此时,在 a n = 0 a_n=0 an?=0 这种情况下,来自第 n 层的所有信息都流经 t n t_n tn? 。 在正向传播和反向传播过程中都保存了计算。 分析运行时间通过跳过残差块中主路径的计算,我们获得了与原始残差块网络相比的很大加速。为了将其形式化,让
τ
1
τ1
τ1和
τ
2
τ2
τ2表示剩余单元的主路径和跳连路径的运行时间。这里我们包括向前和向后传播的总时间。因此,计算残差块输出的时间为
τ
1
+
τ
2
τ1+τ2
τ1+τ2,这里我们忽略了其他非常小的开销,因为这与我们的分析无关。现在,随着深度衰减的引入,以概率
p
p
p跳过主路径。因此,预期运行时间变为
E
p
[
τ
1
]
+
τ
2
Ep[τ1]+τ2
Ep[τ1]+τ2,其中
E
p
[
?
]
Ep[·]
Ep[?]是关于参数
p
p
p的伯努利分布的预期。 参数量由于残差块的跳连路径具有可训练的权重,有人可能会争辩说改进的网络比原始基线残差网络更复杂。 然而,与原始残差网络相比,随机丢弃主要路径将在每次迭代期间使得模型训练更少数量的期望权重。 测试在测试时,只需要固定 a n = 1 a_n=1 an?=1。 与 width dropout 不同,我们不将特征输出除以 dropout radio,因为我们模型中的 dropout 是逐层执行的,并且我们已经通过学会了使用 t n t_n tn? 在跳连路径来消除丢弃的残差单元的影响。 请注意,虽然在原始残差网络上引入 t n t_n tn? 意味着额外的处理成本(在测试时),但与训练网络的成本相比,测试时间成本可以忽略不计。 结果论文给出,使用了现在的网络,训练时间大大减少,并且精度也没有受到大的影响。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/11 19:46:07- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |