IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【笔记】NLP 数据增强 -> 正文阅读

[人工智能]【笔记】NLP 数据增强

NLP 数据增强

Created time: June 26, 2021 5:23 PM
Last edited time: Sept 8, 2021 20:18 PM

参考资料:https://amitness.com/2020/05/data-augmentation-for-nlp/

1. 词汇替换

替换语句中的单词而不改变句子原本的语义,即同义词替换,同义词的来源可以有以下几种方式。

1.1 基于词库的替换

词库比如WordNet,可以通过NLTK、或TextBlob来使用。

1.2 word-embedding替换

使用预训练的词嵌入模型,如Word2Vec,GloVe,FastText,Sent2Vec。从词嵌入空间中选择邻近词进行替换。词嵌入模型可以使用Gensim库进行使用。

1.3 Masked Language Model

用Bert,Roberta等模型的MLM任务预测[MASK]位置词,进行数据增强。例子

1.4 基于TF-IDF的词汇替换

基本思想是TF-IDF分数低的词是无信息的(信息量不足的),因此可以在不影响句子的真实标签的情况下被替换。

2. 回译

你可以使用TextBlobGoogle TranslateMarianMT,来实现回译。

3. Text Surface Transformation

该方法通过简单的正则表达式进行相应的匹配和替换.

在这里插入图片描述

4. 随机噪声注入

4.1 拼写错误注入

在这里插入图片描述

4.2 QWERTY Keyboard Error Injection

该方法模拟了用户使用QWERTY布局的键盘进行(英文)文本输入时,由于触碰到临近键位而产生的错误输入.

在这里插入图片描述

4.3 Unigram Noising

没有太懂博客的讲解, 根据Unigram统计的词频分布,然后进行替换.

那这里的替换是替换的源单词怎么选择?目标单词怎么选择?如果仅是用相近的Unigram分布频数相近的单词进行替换应该会有语义差异吧.

在这里插入图片描述

TODO: 有时间看一下出处论文: Data Noising as Smoothing in Neural Network Language Models

4.4 Blank Noising

随机将单词替换为一个占位符(如’_’), 避免模型过拟合到某些特定文本上, 一定程度上起到平滑的作用.

4.5 打乱句子顺序

4.6 (同义词)随机插入

首先从句子中选择随机选择一个非停用词,然后找到该停用词的同义词, 最后将该同义词随机插入到句子中的随机位置(??).

在EDA那篇论文中使用到.

在这里插入图片描述

4.7 随机交换

选择句子中任意两个单词进行交换

4.8 随机删除

随机删除句子中的任意单词

5. Instance Crossover Augmentation

该方法在一篇情感分析论文中被使用, 选择两个情感相同的文本, 各自拆分然后交换片段, 即使句法上会出现不通顺的情况, 但是文本仍然保留了情感.

在这里插入图片描述

6. 基于句法树的操作

一个例子是,主动句和被动句的转换操作.

7. MixUp for Text

方法出处: Augmenting Data with Mixup for Sentence Classification: An Empirical Study

7.1 wordMixup

7.2 sentMixup

两种方法都是将Embedding以不同的比例进行合并, 一个实在word embedding阶段,一个是在sent embedding阶段, 合并后的loss计算也遵从同样的比例

8. 生成式的方法

8.1 Conditional Pre-trained Language Models

在GPT2上训练: 给定label下的文本生成模型

在这里插入图片描述


附:数据增强工具

nlpaug

textattack

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-09 11:45:02  更:2021-09-09 11:48:25 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/11 19:41:56-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码