IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data论文学习 -> 正文阅读

[人工智能]Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data论文学习

在这里插入图片描述

Abstract

  • 无监督学习对nlp任务例如ner任务结果有促进作用
  • 之前的工作只focuses在无监督做ner模型,没有任何标注,证明了能取得好的表现,但是效果还是比完全监督学习来做ner差。
  • 本文更考虑一个实际的场景,少量强标注数据&大量弱标注数据,但是发现,弱标注数据没啥用,反而可能使模型更恶化。
  • 为了解决这个问题,本文提出了一个多步的框架:1. 若标签完成,2. noise相关的loss函数,3. 在强标注数据上finetune来实现,通过在电商query-ner以及生物ner的数据上,证明本文的NEEDLE能够有效的压制住噪声的影响,并取得SOTA的结果。

1 Introduction

  • ner数据标注比较难,是瓶颈。
  • 如何利用大量的未标注数据?
    • pre-trained model,领域相关的训练。
    • 弱监督学习自动生成label(医疗词典)
  • 能不能同时利用少量精标数据+大量弱标注数据来提高模型表现?
    • 压制噪声的影响
      • 不完整,漏标
      • bias,错标
      • 数据量比精标数据大很多
      • 结合预训练模型,可能噪声的影响会非常大,导致很容易过拟合,恶化模型的表现
  • 方案:
    • 利用大量的未标注的数据,进行领域继续预训练
    • 将领域无标签数据转化为弱标签数据
    • 结合我们提出的弱标签完成过程和噪声感知损失函数,继续预训练(精标数据+弱标签数据)
    • 在精标数据上finetune

2 Preliminaries

2.1 NER知识

NER是啥
监督NER
弱监督NER

2.2 无监督预训练

BERT、RoBERTa、ALBERT、T5
BERT:110 million 参数,书籍+英文wiki百科

2.3 Method

  • 开放领域的预训练模型->在未标注的领域数据集上,继续做MLM预训练。
  • 无标注数据->弱标签->noise loss函数继续预训练?这里面标签如何用
    • weak label completion:弱标签数据有严重的实体缺失问题,用weak label completion来完善
      在这里插入图片描述

b. Noise-Aware Loss Function:对错标的数据也进行补偿:根据置信度和直方图来调整。
在这里插入图片描述

精标数据fine-tune
在这里插入图片描述

Experiments

4.1 训练参数:

BIO
144
gird search
epochs=[1,2,3,4,5,10,15,20,25,30,50]
batch_size=[64,144,192]
Lr=[1,2,5]*10e5

4.2 数据数量在这里插入图片描述

4.3 Baseline

  • 监督学习
    • E-commerce query-mBERT-CRF
    • Biomedical-NER BioBERT-CRF
  • 半监督学习
    • SST,监督学习,生成假标签,半监督学习
    • Mean-Teacher & VAT
  • 弱监督学习WSL
    • 合并精标数据和弱标签数据
    • 加权弱监督学习Weighted WSL:固定权重
    • Robust WSL:利用均方误差,适应噪声,但是不兼容CRF
    • partial WSL:非实体弱标签
    • BOND:弱监督学习的一个自学习框架
      在这里插入图片描述
4.3.1 主要结论

NEEDLE:效果最好
WSB:都导致了比监督学习差的效果,和之前的分析也一致
Semi-supervised:比监督学习和弱监督学习WSB好,说明如果没处理好噪音,假标签的结果可能比弱监督学习的label好。

4.4 Biomedical NER

NEEDLE模型最好

4.5 分析

  • 分析弱标注数据大小的影响
    • 随机采样数据,发现西欧昂对于其他方法(SST和WSL),NEEDLE能够从数据中获得更多的收益。
  • 两轮二阶段训练
  • 精标数据大小
    • 调整精标数据大小,发现只需要30-50%的精标数据,就能拿到全量精标数据的大小,数据越小,收益越大。

5 讨论和总结

  • 完全弱监督学习非常菜,会带来很多噪声,可能还不如假标签。
  • 半监督学习只学到了精标数据的结果,可能只能带来些微的提升,对领域外的提升不大。
  • 本文的方法可以充分挖掘弱标注数据的优点,并且压制住其噪声带来的影响,这样既能在精标数据中学习,也能在弱标签数据中学习,搭建了监督学习NER和弱监督学习NER的桥梁。

英语

simultaneously 同步的
Preliminaries 初步的
conservative/aggressive 保守/激进
Ablation study 消融实验
slight 微不足道的
marginally 稍微的,有限的

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-24 23:59:02  更:2021-07-24 23:59:39 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/22 10:09:45-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码