[人工智能] Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data论文学习

IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data论文学习 -> 正文阅读

[人工智能]Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data论文学习

在这里插入图片描述

Abstract

无监督学习对nlp任务例如ner任务结果有促进作用
之前的工作只focuses在无监督做ner模型，没有任何标注，证明了能取得好的表现，但是效果还是比完全监督学习来做ner差。
本文更考虑一个实际的场景，少量强标注数据&大量弱标注数据，但是发现，弱标注数据没啥用，反而可能使模型更恶化。
为了解决这个问题，本文提出了一个多步的框架：1. 若标签完成，2. noise相关的loss函数，3. 在强标注数据上finetune来实现，通过在电商query-ner以及生物ner的数据上，证明本文的NEEDLE能够有效的压制住噪声的影响，并取得SOTA的结果。

1 Introduction

ner数据标注比较难，是瓶颈。
如何利用大量的未标注数据?
- pre-trained model，领域相关的训练。
- 弱监督学习自动生成label(医疗词典)
能不能同时利用少量精标数据+大量弱标注数据来提高模型表现?
- 压制噪声的影响
  - 不完整，漏标
  - bias，错标
  - 数据量比精标数据大很多
  - 结合预训练模型，可能噪声的影响会非常大，导致很容易过拟合，恶化模型的表现
方案：
- 利用大量的未标注的数据，进行领域继续预训练
- 将领域无标签数据转化为弱标签数据
- 结合我们提出的弱标签完成过程和噪声感知损失函数，继续预训练(精标数据+弱标签数据)
- 在精标数据上finetune

2 Preliminaries

2.1 NER知识

NER是啥
监督NER
弱监督NER

2.2 无监督预训练

BERT、RoBERTa、ALBERT、T5
BERT：110 million 参数，书籍+英文wiki百科

2.3 Method

开放领域的预训练模型->在未标注的领域数据集上，继续做MLM预训练。
无标注数据->弱标签->noise loss函数继续预训练?这里面标签如何用
- weak label completion：弱标签数据有严重的实体缺失问题，用weak label completion来完善

b. Noise-Aware Loss Function：对错标的数据也进行补偿：根据置信度和直方图来调整。
在这里插入图片描述

精标数据fine-tune
在这里插入图片描述

Experiments

4.1 训练参数：

BIO
144
gird search
epochs=[1,2,3,4,5,10,15,20,25,30,50]
batch_size=[64,144,192]
Lr=[1,2,5]*10e5

4.2 数据数量

4.3 Baseline

监督学习
- E-commerce query-mBERT-CRF
- Biomedical-NER BioBERT-CRF
半监督学习
- SST，监督学习，生成假标签，半监督学习
- Mean-Teacher & VAT
弱监督学习WSL
- 合并精标数据和弱标签数据
- 加权弱监督学习Weighted WSL：固定权重
- Robust WSL：利用均方误差，适应噪声，但是不兼容CRF
- partial WSL：非实体弱标签
- BOND：弱监督学习的一个自学习框架

4.3.1 主要结论

NEEDLE：效果最好
WSB：都导致了比监督学习差的效果，和之前的分析也一致
Semi-supervised：比监督学习和弱监督学习WSB好，说明如果没处理好噪音，假标签的结果可能比弱监督学习的label好。

4.4 Biomedical NER

NEEDLE模型最好

4.5 分析

分析弱标注数据大小的影响
- 随机采样数据，发现西欧昂对于其他方法（SST和WSL），NEEDLE能够从数据中获得更多的收益。
两轮二阶段训练
精标数据大小
- 调整精标数据大小，发现只需要30-50%的精标数据，就能拿到全量精标数据的大小，数据越小，收益越大。

5 讨论和总结

完全弱监督学习非常菜，会带来很多噪声，可能还不如假标签。
半监督学习只学到了精标数据的结果，可能只能带来些微的提升，对领域外的提升不大。
本文的方法可以充分挖掘弱标注数据的优点，并且压制住其噪声带来的影响，这样既能在精标数据中学习，也能在弱标签数据中学习，搭建了监督学习NER和弱监督学习NER的桥梁。

英语

simultaneously 同步的
Preliminaries 初步的
conservative/aggressive 保守/激进
Ablation study 消融实验
slight 微不足道的
marginally 稍微的，有限的

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2021-07-24 23:59:02 更:2021-07-24 23:59:39

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/3 5:26:21-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码