[人工智能] 自然语言处理剪枝论文（Network Pruning Rethinking）

IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 自然语言处理剪枝论文（Network Pruning Rethinking） -> 正文阅读

[人工智能]自然语言处理剪枝论文（Network Pruning Rethinking）

本文介绍一篇自然语言处理剪枝论文（Network Pruning Rethinking）

在这里插入图片描述

上图介绍了在不同的修剪策略下，知识是如何传递的：

(a) 一般的预培训和微调程序。 $g$ 是一个编码器。 $g_L$ 和 $g_{L_D}$ 分别是在预训练数据集和微调数据集上训练良好的编码器。 $L$ 和 $D$ 分别是通用语言知识和任务特定知识。预训练和测试之间存在域误差，微调和测试之间存在泛化误差。

(b) 和 ( c)是两种基本的修剪策略。 $L_D$ 和 $L_{pr}$ 都是知识l的子集。 $L_D$ 与下游任务相关。 $L_{pr}$ 保存在经过修剪的编码器 $g_{(L^{pr})}$ 中。

(d) 是作者提出的修剪策略。 $L^{pr})_D$ 为先修剪后微调获得的知识。 $L_D)^{pr}$ 对应于蒸馏时先微调后修剪。

1. 一般的预培训和微调程序

在这里插入图片描述

在预训练过程，通过大量数据实例 $x^p, y^p)$ 学习通用语言知识，用 $L$ 表示。 $L$ 包含一个与下游任务相关的子集，用 $L_D$ 表示， $L$ 的数量远远大于 $L_D$ 的数量。
为了将知识 $L$ (特别是 $L_D$ )从预训练域转移到下游域，使用经过良好训练的编码器 $g_L$ 对下游编码器 $g_{L_D}$ 进行初始化。
在微调过程中，下游编码器的训练是基于来自下游域的少量数据示例 $x^d, y^d)$ 中保留的任务相关知识 $D$ 。
最后，根据测试数据对经过良好训练的下游编码器 $g_{L_D}$ 进行评估。

2. 微调过程中修剪

一是在微调过程中对下游编码器 $g_L$ 进行修剪：

在这里插入图片描述
但是，由于优化过程中权值更新的损失仅基于下游任务域的数据示例 $x^d, y^d)$ ，这个数据相比于大量数据实例 $x^p, y^p)$ 是很小的，所以知识 $L_D$ 很依赖于 $g_L$ 赋予的初始值，对 $g_L$ 进行修改就可能回破坏 $L_D$ 。

3. 预训练阶段修剪

另一种策略是在预训练阶段执行修剪：

在这里插入图片描述
生成的剪枝网络保留了知识 $L$ 的一个子集，用 $L_{pr}$ 表示。不幸的是，由于该策略忽略了下游任务信息，且 $L$ 的数量非常大，即 $L$ 远大于 $L_{pr}$ ， $L_{pr}$ 的知识可能与我们希望保存的 $L_D$ 迥然不同。如图所示：

在这里插入图片描述

4. 作者提出的修剪网络

为了减少 $L_D$ 的损失，作者在修剪过程中利用知识蒸馏。使用特定任务的精细调整的语言表示模型BERT（论文链接）作为教师网络，预先训练的BERT作为学生网络。SparseBERT在蒸馏阶段进行修剪。
在这里插入图片描述

学生网络在预训练之后，跳过传统网络的微调的步骤，对预训练的编码器 $g_L$ 进行蒸馏，蒸馏时先微调后修剪，得到 $L_D)^{pr}$ 。同时，教师网络基于下游数据集 $x^d, y^d)$ ，根据传统方法对编码器 $g_L$ 进行修剪，得到 $g_{L_D}$ 。

这样，如下图所示，利用教师网络保留 $L_D$ 。通过将下游任务数据 $x^d, y^d)$ 输入教师-学生框架，我们帮助学生模仿老师的行为，尽可能多地学习 $L_D$ 和 $L$ 。
在这里插入图片描述

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2021-08-05 17:21:26 更:2021-08-05 17:23:48

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/27 21:41:17-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码