| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【ACL 2021】《 Unsupervised Label Refinement Improves Dataless Text Classification》阅读笔记 -> 正文阅读 |
|
[人工智能]【ACL 2021】《 Unsupervised Label Refinement Improves Dataless Text Classification》阅读笔记 |
【ACL 2021】《 Unsupervised Label Refinement Improves Dataless Text Classification》阅读笔记英文标题:Unsupervised Label Refinement Improves Dataless Text Classification 文章目录Abstract本文研究对无数据(dataless)文本分类任务,该任务即在无带标签文本的情况下,通过给每个输入文档与其标签描述(label descrption)配对(标签描述为已知信息),并为每种可能配对情况打分,通过topk选出分数最高的文档-标签对 作为该文本的标签。虽然它很有前景,但它严重依赖下游任务的标签描述集是否准确。 作者提出一种基于聚类的方法,在给定一个基线无数据分类器后用k-means聚类改进其预测集。并且分别实验两种编码器分别进行文本-标签对的配对:一种是用两个独立的编码器,另一个是用一个单一的联合编码器。实验表明,我们的方法始终改进了不同数据集之间的无数据分类,并使分类器对标签描述的选择更具有鲁棒性。 一、Introduction无数据文本分类旨在将文本分类为类别,而不使用任何注释训练数据。之前的工作表明,通过有效的表示文本和标签,无数据分类器可以对无界标签集进行文本分类。在无数据或zero shot文本分类方面已经有很多前人工作,在之前的工作中考虑了许多不同的设置,有些使用了无数据分类器的略有不同的定义。在本文中,我们使用术语“无数据文本分类”来指以下方法: 本文的方法—无监督标签细化(ULR),是基于k-means聚类,且作者开发变种聚类方法以便它可以应用于不同风格的无数据文本分类器,提高其性能。下表显示了将ULR应用到无数据文本分类器时的结果。在所有情况下,应用ULR后精度提高,使用较弱的标签描述时有较大的增益。 二. Background无数据(dataless)的文本分类:旨在构建一个通用的文本分类器,可以应用于具有给定标签描述(label discribtion)的任何文本分类任务。无数据分类器可以用于一组无界的类别上。除了通过指定标签描述之外,通常不会对数据集的分类器进行定制或微调。由于目标任务中的注释数据不能用于训练,因此标签描述的选择对无数据分类器的性能起着关键作用。 使用无数据分类器,每个文本–类别对产生一个分数,表明它们的语义相关性。文本分类就成为一个排序问题,即选择与文本语义相关性最高的类别。有一些人使用显式语义分析(ESA)作为无数据文本分类中的文本表示,标签描述和文本都被编码成欧空间向量。余弦相似度用于计算文本和类别之间的分数。无数据分类器的两种典型的建模选择,分别是双编码器和单编码器架构。我们将简要介绍它们,并在实验中考虑这两种类型。 双编码器与单编码器
**单编码器模型:**单个编码器模型:该类别与文本组合为一个序列,并输入一个编码器。编码器的输出是一个向量,它包含来自类别和文本的信息。这个向量可以通过一个线性层,并为这个特定的文档类别对产生一个分数。图1展示了用于文本分类的典型双编码器和单编码器模型的体系结构。 三. Method(ULR)我们的方法的想法是利用作为的假设,即文本分类数据集中的文档根据随附的标签集是可分离的。也就是说,给定一个强大的文档编码器,文档应该通过编码空间中的标签来分离。在对无监督文档分类进行聚类时也有类似的假设。 我们使用一组未标记的输入文本,通过聚类来完善无数据分类器的预测指标。为了更好地告知该算法,我们通过使用在为每个任务提供的标签集上运行的无数据分类器来初始化集群。该算法对dual编码器模型和单个编码器模型具有不同的形式。详情如下 ULR+双编码器其流程如图。 ULR+单编码器
四. Experiment我们使用四个跨越不同域的文本分类数据集来进行评估。它们是:AG新闻5(AG),它使用4个类,覆盖了新闻线领域;DBpedia(DBP;莱曼等。2015年),有14个类,来自百科全书领域;雅虎(张、赵和Lecun2015),有10类,解决在线问题分类问题;20个新闻组(20NG;朗1995),20类是新闻组。在主要实验中,我们不使用来自训练集的任何数据或标签,而只依赖于标签描述。我们使用这些数据集的官方标签名称,只有在原始标签名称作为“科技”等缩写提供时才进行扩展。我们使用的确切的标签名称就在附录中 我们实验了多个无数据文本分类器。我们最简单的分类器使用一个编码器,平均预先训练的GloVe(彭宁顿,Socher,和曼宁2014)单词嵌入。我们还微调了一个Roberta的模型(刘等人。2019年)在单编码器和双编码器设置中,使用roberta基线(110M参数)因为roberta在各种文本分类任务中的表现优于BERT(刘等。2019)。 1.不同基线且为双编码器结构+ULRglove
Roberta
2.单编码器+ULRglove
3. 验证标签表示重要性
4.验证鲁棒性ULR前后的性能提高。我们还报告了ULR提高准确性的案例的数量和百分比。ULR提高了所有三项任务的平均性能,并在绝大多数情况下提高了个人精度。这些结果表明,ULR不仅可以有效地提高跨各种标签名称集的无数据文本类符的准确性,而且还可以帮助减轻由于次优标签名称而造成的有害影响。 5.验证其对有监督数据的性能
6.验证额外添加新类别以及无标签样本的影响
五. Conclusion在本文中,我们证明了我们提出的基于k-means值聚类的无监督标签改进是一种提高无数据文本分类器性能的简单而有效的方法。ULR可以同时应用于单个编码器或双个编码器体系结构中。这种方法对标签名称的选择具有健壮性,这使得无数据文本分类对从业者更有用。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/28 12:02:56- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |