IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> R-Drop——更强大的dropout -> 正文阅读

[人工智能]R-Drop——更强大的dropout

更强大的dropout——R-dropout

论文通过实验得出一种改进的正则化方法R-dropout,简单来说,它通过使用若干次(论文中使用了两次)dropout,定义新的损失函数。实验结果表明,尽管结构非常简单,但是却能很好的防止模型过拟合,进一步提高模型的正确率。

模型图如下:
R-dropout模型细节
注释
R-Drop 正则化方法的总体框架如图所示。 给定训练数据集 D = ( x i , y i ) i = 1 n D={(x_i,y_i)}^n_{i=1} D=(xi?,yi?)i=1n?,训练的目标是学习一个模型 P w ( y ∣ x ) P ^w(y|x) Pw(yx),其中 n n n 是训练样本的数量, ( x i , y i ) (x_i , y_i) (xi?,yi?) 是标记数据对。 x i x_i xi? 是输入数据, y i y_i yi? 是标签。 例如,在 NLP 中, x i x_i xi? 可以是机器翻译中的源语言句子,而 yi 是对应的目标语言句子。
在 CV 中, x i x_i xi? 可以是一张图像, y i y_i yi? 是分类标签。 映射函数的概率分布也表示为 P w ( y ∣ x ) P^w(y|x) Pw(yx),两个分布 P 1 P_1 P1? P 2 P_2 P2? 之间的 K u l l b a c k ? L e i b l e r ( K L ) Kullback-Leibler(KL) Kullback?Leibler(KL) 散度用 D K L ( P 1 ∣ ∣ P 2 ) DKL(P1||P2) DKL(P1P2) 表示。


模型

论文提出的是上图中右侧模型。如图所示,同一数据经过了两次模型,使用了随机dropout后得到了两个不同的子模型,图中 P 1 ( y ∣ x ) P_1(y|x) P1?(yx) P 2 ( y ∣ x ) P_2(y|x) P2?(yx)为两个子模型的分布。

具体来说,给定每个训练步骤的输入数据 x i x_i xi?,我们两次把 x i x_i xi? 通过网络的前向传递。 因此,我们可以获得模型预测的两个分布,表示为 P 1 w ( y i ∣ x i ) P ^w _1 (y_i |x_i) P1w?(yi?xi?) P 2 w ( y i ∣ x i ) P ^w_ 2 (y_i |x_i) P2w?(yi?xi?)。 如上所述,由于 dropout 算子随机丢弃模型中的单元,因此两次前向传递确实基于两个不同的子模型(是基于同一模型做的dropout,只是中间缺失的神经元不一样而已。如图右侧部分所示,输出预测 P 1 w ( y i ∣ x i ) P ^w _1 (y_i |x_i) P1w?(yi?xi?)的左侧路径的每一层中丢弃的单元与输出分布 P 2 w ( y i ∣ x i ) P ^w _2 (y_i |x_i) P2w?(yi?xi?) 的右侧路径的丢弃单元不同 )。 因此,对于相同的输入数据对 ( x i , y i ) (xi , yi) (xi,yi) P 1 w ( y i ∣ x i ) P ^w _1 (y_i |x_i) P1w?(yi?xi?) P 2 w ( y i ∣ x i ) P ^w _2(y_i |x_i) P2w?(yi?xi?) 的分布是不同的。 然后,在此训练步骤中,我们的 R-Drop 方法尝试通过最小化同一样本的这两个输出分布之间的双向 K u l l b a c k ? L e i b l e r ( K L ) Kullback-Leibler (KL) Kullback?Leibler(KL) 散度来正则化模型预测。

分析

这里看到了知乎一位大神的分享,我也借鉴了他的思考。(这里贴出原帖子
Dropout的问题在于预测与训练的不一致性。这是非常直观的,上述链接中也给出了证明过程。而R-D通过增加一个正则项,来强化模型对Dropout的鲁棒性,使得不同的Dropout下模型的输出基本一致,因此能降低这种不一致性,促进“模型平均”与“权重平均”的相似性,从而使得简单关闭Dropout的效果等价于多Dropout模型融合的结果,提升模型最终性能。
原帖中还指出连续性的优点,这里就不展开了。

总的来说,R-D形式简洁,效果出色,是一个非常具有创新点的想法。但是针对R-D为什么可以做到如此出色的效果,以及如何引导模型找到合适的R-D也是非常值得探究的。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-02 11:21:53  更:2021-09-02 11:22:35 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 16:31:42-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码