| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 【笔记】NLP 数据增强(二) -> 正文阅读 |
|
[人工智能]【笔记】NLP 数据增强(二) |
写在前面打比赛看到有人总结文本增强的方法里提到了这两篇论文。以下是个人的总结记录。 1 EDA《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》 对四种数据增强方法进行实验效果的对比,四种NLP数据增强方法:
文章在SST-2、CR、SUBJ、TREC、PC五个文本分类数据集上进行了实验。实验主要包括:
论文代码:jasonwei20/eda_nlp: Data augmentation for NLP, presented at EMNLP 2019 (github.com) 2 AEDA《AEDA: An Easier Data Augmentation Technique for Text Classification》EMNLP 2021 Findings AEDA是EDA之后的工作,也和EDA进行了对比。AEDA比EDA更简单,增强方法是向句中插入标点。 增强过程:
文章同样在文本分类数据集:SST-2、CR、SUBJ、TREC、PC上进行了实验。实验主要包括:
论文代码:aeda_nlp/aeda.py at master · akkarimi/aeda_nlp (github.com) 我对AEDA方法的实验我拿bert-base-chinese简单地在CLUE的iflytek数据集(多分类任务,acc)上做了下实验,看下效果。
表格列是数据集划分:全体数据full,比例0.1,比例0.5。划分时我按标签类别对train集进行了随机抽样。dev和test都没换,以及用的model_pytorch里的代码。 表格行是AEDA论文代码的增强方法,对比了不增强None和对每条样本增强2条文本,保持增强的标签。然后,论文方法用的标点候选集是英文的。我也没有针对中文数据引入中文标点,或是更多标点。但是就结果上已经能看到一些效果了。 结果上看,和论文反映的规律差不多:小数据集下分数提升比较明显,可以看到:10%和50%比例的数据都得到了不同程度的提升(+41.1%和+3.94%),但在整个train上做增强反而降低了acc。 总结EDA的方法我也在一些比赛中用过,我感觉一定要控制增强的比例,以及对原文改动的比例。这两个影响比较大,且很有可能引入噪声,导致负收益。 AEDA看完有点迷糊啊,感觉这个随机标签插入也能带来收益,好玄学。理论上去理解的话,就是相比EDA方法,AEDA引入的标点对原文本的语义信息修改不大,更多的是文本上增强加了一些噪声(改动了位置)。 个人使用看来对抗训练还是比较稳定的提点trick。像是SimCSE论文中使用两次dropout,也是对于向量层面的噪声操作会比较鲁棒一些。对原始文本的改动很有可能引入噪声,反而需要更加注意生成的文本。不过论文中也展示了,实验结果对于小样本的提升会更加明显一点,我没有实验过。EDA我之前是在短文本匹配任务场景试过,不是很好用,很大概率是引入噪声太大。 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 | -2025/1/16 12:26:31- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |