开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> ContextualizedWeak Supervision for Text Classification，ACL2022 -> 正文阅读

[人工智能]ContextualizedWeak Supervision for Text Classification，ACL2022

在这里插入图片描述
在以生成标签对应关键词为核心思想的半监督文本分类中，现有的大多数方法都以一种与上下文无关的方式生成伪标签，因此，人类语言的模糊性和上下文依赖性一直被忽视。本文利用词出现的上下文化表示和种子词信息来自动区分同一词的多种解释，从而创建上下文化语料库，该语境化语料库进一步以迭代的方式训练分类器和扩展种子词，最终提升半监督文本表示的性能。

Overview

问题的定义还是那几种符号，跳过：
在这里插入图片描述
本文提出了一个框架，ConWea，构建语境话的弱监督模型。在这里，语境化体现在两个方面:语料库和种子词。因此，相应地开发了两种新技术来实现这两种语境化。

选择BERT作为实现中的一个例子，以生成每个word occurrence的上下文化向量。这里的word occurrence可以理解为一个词的不同分身，用来表示一个相同的单词在不同句子、上下文中出现所体现的语境。
设计了一种有原则的比较排序方法，从语境化的语料库中选择高度标签指示性的关键词，从而得到语境化的种子词。具体来说，从种子词的所有可能的解释开始，并训练一个神经分类器。基于这些预测，我们比较和对比属于不同类别的文档，并根据标签指示性和频繁程度对上下文化的单词进行排序。

模型的总体迭代过程如图1所示。
在这里插入图片描述

Document Contextualization

具体来说，给定一个单词 $w$ ，我们将它出现的所有次数都表示为 $w_1,...,w_n$ ，其中 $n$ 是它在语料库中出现的总次数。那么一个单词根据其情境的不同，可以有最多 $n$ 种表示。为了衡量不同语境的相似性，可以使用不同表示（ $b_{w_i},b_{w_j}$ ）的余弦相似度进行代替。
Choice of Clustering Methods。在有了单词表示之后，对相同单词的不同语境可以进行聚类，来统一相似的语境。在本文中使用了K-Means进行聚类。为了判定 $w_i,w_j$ 是否属于一个聚类，规定了参数 $\tau$ 。通过判断两个聚类中心向量的余弦相似度是否比 $\tau$ 大来判断两个聚类是否属于同一解释。因此， $K$ 也就是聚类中心的个数可以表示为：
在这里插入图片描述 $c_i$ 表示聚类中心的向量，并且 $\tau$ 根据用户提供的种子词进行调整：(1)对于任何种子词，其出现的大多数情况遵循用户的预期解释;(2)大多数种子词没有歧义——它们只有一种解释。因此，对于每个种子词 $s$ ，我们取其出现次数之间成对余弦相似度的中位数：
在这里插入图片描述
也就是说 $\tau(s)$ 剔除了一半不相似的种子词。同样，对所有的 $\tau(s)$ 计算一个中位数，就可以得到 $\tau$ ：