IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【ACL 2021】《 Unsupervised Label Refinement Improves Dataless Text Classification》阅读笔记 -> 正文阅读

[人工智能]【ACL 2021】《 Unsupervised Label Refinement Improves Dataless Text Classification》阅读笔记

【ACL 2021】《 Unsupervised Label Refinement Improves Dataless Text Classification》阅读笔记

英文标题:Unsupervised Label Refinement Improves Dataless Text Classification
中文翻译:无监督的标签细化改进无数据文本分类
原文链接: https://arxiv.org/pdf/2012.04194.pdf


Abstract

本文研究对无数据(dataless)文本分类任务,该任务即在无带标签文本的情况下,通过给每个输入文档与其标签描述(label descrption)配对(标签描述为已知信息),并为每种可能配对情况打分,通过topk选出分数最高的文档-标签对 作为该文本的标签。虽然它很有前景,但它严重依赖下游任务的标签描述集是否准确。

作者提出一种基于聚类的方法,在给定一个基线无数据分类器后用k-means聚类改进其预测集。并且分别实验两种编码器分别进行文本-标签对的配对:一种是用两个独立的编码器,另一个是用一个单一的联合编码器。实验表明,我们的方法始终改进了不同数据集之间的无数据分类,并使分类器对标签描述的选择更具有鲁棒性。

一、Introduction

无数据文本分类旨在将文本分类为类别,而不使用任何注释训练数据。之前的工作表明,通过有效的表示文本和标签,无数据分类器可以对无界标签集进行文本分类。在无数据或zero shot文本分类方面已经有很多前人工作,在之前的工作中考虑了许多不同的设置,有些使用了无数据分类器的略有不同的定义。在本文中,我们使用术语“无数据文本分类”来指以下方法:
(1)可以为任何文档类别对分配评分,
(2)不需要任何来自下游任务的注释训练数据。
因此,无数据分类器可以立即适应于特定标签集数据集,通过为文档的每个可能的标签进行评分,并返回具有最高评分的标签。无数据类器通常是由大规模免费使用的文本资源构建的,如维基百科。
由于无数据分类器纯粹依赖于下游任务中的标签描述,因此对于给定的数据集,通常不会对分类器进行定制或微调。标签描述的选择不佳可能会危及无数据分类器在特定文本分类任务上的性能

本文的方法—无监督标签细化(ULR),是基于k-means聚类,且作者开发变种聚类方法以便它可以应用于不同风格的无数据文本分类器,提高其性能。下表显示了将ULR应用到无数据文本分类器时的结果。在所有情况下,应用ULR后精度提高,使用较弱的标签描述时有较大的增益。

如图所示,四种相同的类别因为标签描述的不同选择,准确率差距很大,ULR有效提高了无数据文本分类的准确率。

二. Background

无数据(dataless)的文本分类:旨在构建一个通用的文本分类器,可以应用于具有给定标签描述(label discribtion)的任何文本分类任务。无数据分类器可以用于一组无界的类别上。除了通过指定标签描述之外,通常不会对数据集的分类器进行定制或微调。由于目标任务中的注释数据不能用于训练,因此标签描述的选择对无数据分类器的性能起着关键作用。

使用无数据分类器,每个文本–类别对产生一个分数,表明它们的语义相关性。文本分类就成为一个排序问题,即选择与文本语义相关性最高的类别。有一些人使用显式语义分析(ESA)作为无数据文本分类中的文本表示,标签描述和文本都被编码成欧空间向量。余弦相似度用于计算文本和类别之间的分数。无数据分类器的两种典型的建模选择,分别是双编码器和单编码器架构。我们将简要介绍它们,并在实验中考虑这两种类型。

双编码器与单编码器

在这里插入图片描述
**双编码器模型:**使用双编码器模型将类别和文本分别输入编码器,每个文本都产生一个向量表示。文本和类别编码器可以具有共享或独立的参数。在我们的实验中,我们总是共享参数,即对类别和文本使用相同的编码器。距离函数同时接收类别和文本向量,并产生一个标量值。在我们的实验中,这个评分函数可以是余弦距离,也可以是欧几里得(L2)距离。

**单编码器模型:**单个编码器模型:该类别与文本组合为一个序列,并输入一个编码器。编码器的输出是一个向量,它包含来自类别和文本的信息。这个向量可以通过一个线性层,并为这个特定的文档类别对产生一个分数。图1展示了用于文本分类的典型双编码器和单编码器模型的体系结构。

三. Method(ULR)

我们的方法的想法是利用作为的假设,即文本分类数据集中的文档根据随附的标签集是可分离的。也就是说,给定一个强大的文档编码器,文档应该通过编码空间中的标签来分离。在对无监督文档分类进行聚类时也有类似的假设。

我们使用一组未标记的输入文本,通过聚类来完善无数据分类器的预测指标。为了更好地告知该算法,我们通过使用在为每个任务提供的标签集上运行的无数据分类器来初始化集群。该算法对dual编码器模型和单个编码器模型具有不同的形式。详情如下

ULR+双编码器

其流程如图。
在这里插入图片描述
1.首先将编码后的类别(向量坐标)链接到聚类的中心,来初始化中心。
2.只要没有聚类完成,便益智计算文档t与类别c的分数,并选择最小的分数作为预测结果。
3.当没有数据点(文本表示)的聚类集群分配产生变化时,该算法收敛,即质心停止更新。在我们的实验中,我们最多运行了100次迭代。我们根据迭代中的目标的最小值执行模型选择(“早期停止”)。
4.作者创新点在于每次因为我们更新的中心值与初始类别的中心值进行叠加计算,称为插值。将“新质心”与原始类别向量进行平均,作为一种正则化。在初步的实验中,我们发现这种修改可以稳定性能。
6.最终预测出文档的类别

ULR+单编码器

在这里插入图片描述
流程与双编码器类似,不过分数不再用欧氏距离或者余弦,而是基于js散度与one hot来得出文档与配对进行打分,其余双文档最大的区别就是不引入初始化的聚类中心作为插值更新聚类中心。

四. Experiment

我们使用四个跨越不同域的文本分类数据集来进行评估。它们是:AG新闻5(AG),它使用4个类,覆盖了新闻线领域;DBpedia(DBP;莱曼等。2015年),有14个类,来自百科全书领域;雅虎(张、赵和Lecun2015),有10类,解决在线问题分类问题;20个新闻组(20NG;朗1995),20类是新闻组。在主要实验中,我们不使用来自训练集的任何数据或标签,而只依赖于标签描述。我们使用这些数据集的官方标签名称,只有在原始标签名称作为“科技”等缩写提供时才进行扩展。我们使用的确切的标签名称就在附录中

我们实验了多个无数据文本分类器。我们最简单的分类器使用一个编码器,平均预先训练的GloVe(彭宁顿,Socher,和曼宁2014)单词嵌入。我们还微调了一个Roberta的模型(刘等人。2019年)在单编码器和双编码器设置中,使用roberta基线(110M参数)因为roberta在各种文本分类任务中的表现优于BERT(刘等。2019)。

1.不同基线且为双编码器结构+ULR

glove

在这里插入图片描述
分别在余弦值与l2两种评判函数上看,基本各类准确率都有提升。

Roberta

在这里插入图片描述
效果优于glove,并ULR有稳健提升

2.单编码器+ULR

glove

在这里插入图片描述
准确率整体高于双编码器,说明单编码器效果更佳

3. 验证标签表示重要性

在这里插入图片描述
采用双编码器+ULR+手动挑选优质标签表示,基线为roberta,与之前不加人工相比,所有任务的所有精度都有所提高。即有一个更强的起点,ULR仍然在精度上产生了一致的改进**,说明标签表示的重要性**

4.验证鲁棒性

在这里插入图片描述

ULR前后的性能提高。我们还报告了ULR提高准确性的案例的数量和百分比。ULR提高了所有三项任务的平均性能,并在绝大多数情况下提高了个人精度。这些结果表明,ULR不仅可以有效地提高跨各种标签名称集的无数据文本类符的准确性,而且还可以帮助减轻由于次优标签名称而造成的有害影响。

5.验证其对有监督数据的性能

在这里插入图片描述
在这里插入图片描述
算法流程依旧类似,只不过聚类中心初始化考虑了标签的编码向量,ULR提升依旧稳健

6.验证额外添加新类别以及无标签样本的影响

在这里插入图片描述
无监督样本更多并没有带来提升,但是新类别却带来更好的效果,作者解释该类别为增强类别。对分类有好处。

五. Conclusion

在本文中,我们证明了我们提出的基于k-means值聚类的无监督标签改进是一种提高无数据文本分类器性能的简单而有效的方法。ULR可以同时应用于单个编码器或双个编码器体系结构中。这种方法对标签名称的选择具有健壮性,这使得无数据文本分类对从业者更有用。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-15 16:10:46  更:2021-07-15 16:11:46 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年4日历 -2024/4/18 8:54:50-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码