IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> FLiText: A Faster and Lighter Semi-Supervised Text Classification with Convolution Networks -> 正文阅读

[人工智能]FLiText: A Faster and Lighter Semi-Supervised Text Classification with Convolution Networks

在这里插入图片描述
本文发表于EMNLP2020。
本文提出了一个基于卷积模型的蒸馏方法,实现了一个轻量级的、快速的半监督文本分类框架FLiText,相比于Bert等大规模预训练模型,蒸馏模型更具备实际应用价值。
在这里插入图片描述

Method

模型总体的框架如下,大致分为激励网络和目标网络两部分:
在这里插入图片描述
激励器网络(预训练语言模型)利用一致性正则化和数据增强技术,充分挖掘未标记数据和有限标记数据中的信息和特征。然后在输出和隐藏空间两层提供正则化约束,引导轻量级目标网络仅使用少量标记数据实现高效的半监督学习。
本文使用 X = ( x i , y i ) , i ∈ ( 1 , . . , n ) X=(x_i,y_i),i\in (1,..,n) X=(xi?,yi?),i(1,..,n)表示有标签数据, U = ( u j ) , j ∈ ( 1 , . . , n ) U=(u_j), j\in (1,..,n) U=(uj?),j(1,..,n)表示无标签数据。

Inspirer Network

激励网络,比如Bert使用 [CLS] 表示文本特征:
在这里插入图片描述
h i ∈ R d h_i \in R^d hi?Rd。接着使用两层MLP对下游任务进行预测:
在这里插入图片描述
为了对齐BERT和TextCNN的维度,我们将隐藏状态输入到特征投影 I g ( . ) Ig(.) Ig(.)中,输出的特征为 I f i l If_i^l Ifil? l l l表示Bert的层:
在这里插入图片描述
这一步的目的是让Bert层与Text CNN层对齐并通过增加额外的一致性损失,让teacher(Bert)与student(Text CNN)学习到的中间层特征尽量一致。当然,公式(4)中并没有包含对齐的操作。

Target Network

目标网络是一个简单的带有最大池化的TextCNN,并在最后一层使用MLP进行概率预测:
在这里插入图片描述
在这里插入图片描述
然后使用一个简单的变换进行特征维度对齐,同激励网络类似:
在这里插入图片描述

Two-stage Learning

其实网络的结构很简单,接下来的学习才是重点。FLiText包括两个培训阶段:激励者预培训和目标网络培训。在第一阶段,我们引入各种先进的半监督思想来完成下游任务的激励者培训。在第二阶段,FLiText保持激励器参数不变,通过激励器网络提供的多级规则约束引导下游任务中目标网络的训练,最终实现高效的半监督蒸馏学习。
对于激励网络,需要包含两个损失:一个是有标签的损失,使用交叉熵即可;另一个是无标签的数据 u i u_i ui?损失,通过引入其噪声版本 a i a_i ai?,优化二者之间的差异(散度)从而保证模型的稳定性:
在这里插入图片描述
这里 ( T ) (T) (T)表示激励网络的标识。

Target Network Distillation

蒸馏的过程如框架图展示的那样,分为两部分。
Output-based Distillation。蒸馏的过程采用软硬两种损失。soft损失表示激励网络和目标网络的最终概率输出应该近似:
在这里插入图片描述
hard损失中则把激励网络的预测标签作为真实标签,然后使用交叉熵去估计:
在这里插入图片描述
Feature-based Distillation。基于特征的蒸馏则是关注于模型中间输出的特征,如图所示:
在这里插入图片描述
使用MSE进行评估,让两个网络的中间输出贴近:
在这里插入图片描述
Consistency Regularization。由于目标网络和激励网络的参数空间和网络结构的差异,在学习过程中存在知识丢失的问题。如果只采用KD方法,目标网络将无法学习激励网络的一些功能特征。因此,我们引入一致性正则化来约束目标网络,使其在函数空间中保持足够的平滑。因此,输入数据周围的网络应该是平坦的。即使输入数据发生了轻微的变化,或者它们的形式发生了变化,但语义没有改变,模型的输出也可以保持基本不变。这与对激励者网络的训练是一致的。其实也就是通过加入噪声进行平滑:
在这里插入图片描述
最终,模型的联合损失如下:
在这里插入图片描述

Experiments

数据集:
在这里插入图片描述
结果:
在这里插入图片描述
不同层的选择:
在这里插入图片描述
一致正则化的效果:
在这里插入图片描述
甚至不同的激活函数也进行了探究:
在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-02-03 01:12:38  更:2022-02-03 01:13:38 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 20:20:21-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码