IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 论文笔记-A survey of active Learning for text classification using deep neural networks -> 正文阅读

[人工智能]论文笔记-A survey of active Learning for text classification using deep neural networks

1.主动学习是什么?

主动学习(Active Learning)

主动学习(AL)的目的是减少由人类专家标注的数据量,是一个在active learner和oracle(human annotator)之间的迭代循环过程。

相比传统的被动学习:
被动学习将标记好的数据简单地输入到算法中进行训练。
主动学习需要选择下一步要标记的样本,在接受了新的标签数据之后,就会开始新的一轮训练。

Active Learner

  • model(模型):eg.这里以文本分类模型为例
  • query strategy(查询策略):决定下一步应该标记哪些实例
  • stopping criterion(停止标准):定义何时停止主动学习的循环

主动学习的三种场景

  1. pool-based: learner可以访问封闭的、未标记的实例集,称为池。
  2. stream-based:learner每次接收一个实例,可以选择保留或者丢弃。
  3. membership query synthesis(成员查询合成): learner创造新的、需要标记的合成实例。

AL(Active Learning)的基本思想是很少的、有代表性的实例可以替代完整数据集

  • 较小的数据子集减少了计算成本
  • 与在完整数据集上学习相比,人工智能甚至可以提高结果模型的质量

应用优势

  • 对于AL从业者来说,这要么意味着使用较少的样本获得相同的性能,要么意味着使用相同数量的数据获得性能的提高。
  • 另一个有利的发展是迁移学习,尤其是NLP领域中流行的微调预训练语言模型(LMs)。主动学习在小数据场景下尤其有用,预训练模型可以仅仅使用少量数据进行微调训练。最后,通过sub-word units LMs可以对于词典外的token进行处理,这是超过许多传统方法的优点。

本文旨在总结面向文本分类的、基于(D)NN的主动学习方法。
贡献点:

  1. 对于文本分类领域中,与主动学习相关的查询策略、分类策略进行分类
  2. 调研当前主动学习、文本分类、神经网路工作的交集
  3. 本文总结了与主动学习相关的文本分类最新进展以及这些方法适用于主动学习的程度
  4. 我们将针对数据集、模型和查询策略对以往研究的实验设置进行综合分析,以确定实验中的最新趋势、共性和缺点
  5. 我们确定研究差距并概述未来的研究方向。

与其他AL综述不同的是,本文主要针对基于神经网络的AL方法、NLP领域的主动学习方法(包括:单词嵌入、上下文语言模型和由此带来的文本分类的进步)进行综述。

2. The details of AL

The overview of AL process

在这里插入图片描述
分为3步:

  1. query: oracle 向active learner请求未标记数据
  2. unlabeled instances: active learner基于query strategy 查询并选择固定数量的未标记实例,返回给oracle
  3. update: oracle 对选中的实例进行标记,并将这些标记过的实例返回给active learner进行训练
    在每个update操作之后,active learner的模型都重新训练一编。重复这个过程,直到oracle停止,或者达到预定义的停止条件。

每轮操作的开销至少与底层模型的训练相同。
AL最重要的组件是query strategy。很大一部分的查询策略是基于不确定性的(uncertainty-based)。

2.1 Query Strategy

根据策略的输入信息对最常见的AL查询策略进行分类。
在这里,输入信息可以是随机的、数据、模型、预测。
这些类别是根据复杂性的增加来排序的,它们并不相互排斥。
在这种情况下,我们将查询策略分配给最特定的类别(即基于预测的策略在基于模型的策略之前,基于模型的策略在基于数据的策略之前)。
在这里插入图片描述

从第二个层次到倒数第二个层次,我们形成了连贯的子类,最后一个层次展示了各个类的例子。由于现有的查询策略很多,这种分类并不详尽,而且它偏向于NLP中的查询策略。

  • Random:随机抽样随机选择实例,并且是AL实例选择的强基线。它经常与更复杂的策略竞争,特别是当标签池变得更大的时候。传统上被用作许多任务的基线。

  • Data-based:基于数据的策略具有最低层次的知识,即它们只对原始输入数据和被标记池的标签进行操作。进一步可以分为两类,一类基于data-uncertainty(数据不确定性),第二类基于representative(代表性)。data-uncertainty是基于数据分布、标签分布、标签相关性得到的;representativeness方法试图几何压缩点集,通过使用少量的、具有代表性的实例来代表整体的属性。

  • Model-based: 通过模型提供的度量来查询实例。包括:模型对给定实例的解释的置信度度量;预期的量:梯度大小/模型权重;证据不足不确定性:在训练数据中没有找到足够的证据来支撑对类进行分离。
    使用目标度量作为限制,这个目标度量必须是模型的一个量,但不能是模型最后的预测

  • Prediction-based:基于预测的策略通过对预测输出打分来选择实例。这类方法中最突出的是基于预测不确定性和基于分歧的方法。粗略地说,基于预测的不确定性在分类设置中对应于类间的不确定性,而基于模型的不确定性对应于类内的不确定性。 Sharma和Bilgic[87]用证据冲突的不确定性来表示基于预测的不确定性,与本研究相反,他们认为这是另一种形式的基于模型的不确定性。有时,基于模型的不确定性和基于预测的不确定性的概念之间只有一线之隔。在文献中,不确定性抽样[55]通常是指基于预测的不确定性,除非另有规定。

  • Ensembles: 组合多个查询策略的输出。(1)由该分类法下的查询策略组成(2)集成方法可以是不同类别的查询策略的混合。(集成方法的输出通常是单个分类器之间分歧的函数,这在Olsson[71]和Fu, Zhu, and Li[25]之前的调查中已经涉及。)

2.2 Neural-Network-Based Active Learning

本小节主要讨论为什么神经网络在主动学习应用中没有很流行很普遍。
主要分为两个话题:

  • 神经网络中的不确定性估计,
  • 需要大数据的神经网络与处理小数据的主动学习的对比。

神经网络的不确定性(Uncertainty in Neural Networks)
不确定性抽样是最早且在许多变体中采用的策略之一。但,不确定性抽样并不适用于神经网络,因为没有不确定性的内在指标。
解决方案包括:

  • 集成或者学习误差估计
  • 使用贝叶斯扩展,使用dropout获得不确定性,使用概率神经网络预测不确定性
    然而,集成方法和贝叶斯方法无法应对大数据,而神经网络通过对其预测过于自信(容易过拟合)。因此,神经网络中的不确定性还没有被充分解决,目前仍然是一个高度关注的研究领域。

需要大数据的神经网络与处理小数据的主动学习的模式对比

  • DNN尤其擅长处理大规模数据集,但通常,要想DNN性能良好,通常需要大量数据。而主动学习总是尝试尽量减少标注数据。

  • 对于DNN来说,DNN容易在小的数据集上过拟合,这会导致较差的泛化能力。DNN在训练小数据集时往往没有浅层模型的优势。另一方面,我们显然不能要求主动学习对更多的数据进行标记,这与主动学习是相违背的。

  • 对小数据集的处理大多是通过使用预训练或其他迁移学习方法来规避的。最后,最优超参数的搜索往往被忽略,取而代之的是使用相关工作的超参数(如果有优化的大数据集的话)。

3. 文本分类中的主动学习

3.1 文本分类的最新进展

Representations:

  • 词袋模型(BoW):稀疏、高维
  • 词嵌入(Word2Vec,GloVe,fastText): a.在向量空间中,表示语义关系,避免了同义词特征不匹配的问题;b.词嵌入为下游任务带来了更好的性能;c.与词袋模型不同的是,词向量是密集的、低维的,可以应用到许多算法中,特别是在支持固定大小输入的神经网络背景下。
    词嵌入为每个单词提供一个向量,每个向量代表一个意义,但这也使得,这些词向量不包含上下文的含义,因此无法检测和处理歧义。
  • 语言模型:语言模型(LMs)使用单词和周围的上下文计算单词向量,这样就产生了上下文化的表示。优点:继承了词嵌入密集、低维的特点,也能够用于特定上下文的表示。eg.ELMo/Bert/XLNet/RoBERTa.ELECTRA).与词嵌入类似,也有使用LMs方法来获得句子表示的。
    所有提到的表示法都提供了比传统BoW表示法更丰富的表示,因此非常适合主动学习目的

基于神经网络的文本分类

  • KimCNN:由Kim提出的一个著名的CNN架构使用预训练的词向量,并仅仅使用一个简单而优雅的架构就获得了当时最先进的结果。该CNN架构的设置不需要太多的超参数调整,而且证实了dropout作为基于CNN的文本分类的正则化器的有效性。
  • ULMFiT(通用语言模型微调):这是一种使用AWD-LSTM架构的LM迁移学习方法,仅在100个标记的例子上训练,在几个文本分类数据集上的表现优于目前的水平。取得了明显优于以前更复杂的结构的结果
  • 基于上下文的LMs:如BERT和XLNet为每个token生成上下文相关的向量,从而极大地改进了基于神经网络的文本分类。

基于神经网络的文本分类的最新技术是使用XLNet进行基于LM的微调,在测试错误率方面,XLNet比BERT稍占优势。ULMFiT紧随其后,而KimCNN仍然是一个强有力的竞争者。值得注意的是,ULMFiT、BERT和XLNet都是迁移学习,目的是将知识从一个模型转移到另一个模型,从而大量减少所需的数据量

3.2 基于主动学习的文本分类

  1. 传统的基于主动学习的文本分类严重依赖于基于预测不确定性和集成的查询策略。 常用的模型包括支持向量机、朴素贝叶斯、logistic回归和神经网络。
  2. 基于神经网络的主动学习文本分类方法主要是基于CNN和LSTM的架构。
    (a)CNN:Zhang等人使用CNN架构,提出一种查询策略,该策略根据词嵌入的预测变化和模型给定实例的不确定性选择实例,从而学习文本分类嵌入。
    (b)LSTM/GRU:An, Wu, Han评估了SVM、LSTM和GRU,并报告后两种方法在中文新闻数据集ThucNews上显著优于SVM基线。
    (c)文本表示:Lu和MacNamee研究了基于池的主动学习场景中不同文本表示的性能。他们比较了基于频率的文本表示、单词嵌入和基于transformer的表示作为基于支持向量机的AL的输入特征,以及不同的查询策略,其中基于transformer的表示始终获得较高的分数
    (d)FastText+预测不确定性查询策略: Prabhu、Dognin和Singh研究了抽样偏差,并将主动文本分类应用于大规模文本语料库。他们展示了FastText.zip与(基于熵的)不确定性采样是一个强大的基线,这与最近的主动文本分类方法相比是有竞争力的。此外,他们使用这种策略来获得一个代理数据集(占总数据的5%到40%),在该数据集上使用ULMFiT对基于LSTM的LM进行训练,达到接近在完整数据集上训练的精度水平

3.3 以前实验的共性和局限性

下表为文本分类中的主动学习进展:
文本分类中的主动学习进展

  1. 共性:查询策略大部分是基于预测的查询策略,具体地,是基于预测不确定性的查询策略基于分歧的查询策略
  2. 局限性:在许多实验中,两个或更多的标准数据集被评估,但在不同数据集上的实验很少或几乎没有交集,即大家几乎都用了不同的数据集。那么就没有与以往研究的可比性。此外,因此,我们不知道过去的实验是否以及在多大程度上可以推广到DNN

结论
1.目前尚不清楚最近的神经网络是否受益于相同的查询策略,即过去的发现可能不适用于现代神经网络架构
2.事实证明,尽管只需要少量数据,这种策略仍然非常有效

4.开放研究问题

神经网络中的不确定性评估:基于神经网络的主动学习的发展受限于神经网络不确定性评估的不明确。
表示:虽然已有一些应用,但目前还没有AL特异性的系统评价来比较词嵌入和使用神经网络的LMs
小数据的DNN:DL方法通常应用于大数据集的环境中。然而,AL必然希望(标记)数据集尽可能小。在第3节中,我们概述了小数据集对DNN的挑战,以及基于DNN的主动学习的直接后果。使用预训练的语言模型,这个问题在一定程度上得到了缓解,因为微调允许使用相当小的数据集来训练模型。尽管如此,还需要研究的是,要成功地调整一个模型,所需的数据有多少
可比较的评估:实验中使用的数据集往往是不同的,因此,可比性降低甚至丧失。然而,可比较的评估对比对于验证过去关于浅神经网络上的AL的见解是否仍然适用于基于DNN的AL是至关重要的。
Learning to Learn:有很多查询策略可供选择,我们在3.1节对它们进行了分类。这就引入了选择最优策略的问题。正确的选择取决于许多因素,如数据、模型或任务,甚至可以在AL过程中的不同迭代之间有所不同。因此,Learning to learn(或元学习)变得流行起来,可以用来学习最佳选择,甚至学习整个查询策略。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-23 10:47:03  更:2021-07-23 10:48:31 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年4日历 -2024/4/26 1:35:35-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码