IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 文本分类,可能有用的tricks -> 正文阅读

[人工智能]文本分类,可能有用的tricks

一、稳定有收益的,祖传老方子

  1. RNN based model 包括LSTM和GRU,使用双向结构
  2. embedding之后使用dropout
  3. ensemble集成
  4. 尽可能找到还原语义的pretrained embedding,实际情况是oov千奇百怪,拼写检查,基本上是100倍的努力,一点点收益,或者拆词,拆字能一定程度上缓解(比如说你要训练一个某个领域(量化投资)的人短信文本分类,有条件下尽量自己拿相近的行业比较大的语聊训练一个词向量,实际上线的遇见比如investvanguard(OOV)【假设一个投资公司的名称】可能就要用到n-gram(一般二元就成)去切割成invest和 vanguard【其切完后的有可能就是强特征的invest,如果将这个OOV直接赋值零向量可能会损失强特征】)

二、有可能有负作用,跟具体的配方有关,考验炼丹水平,看运气

  1. embedding是否参与训练(Yoon Kim论文的结论是训练好,然而实际中基本对半)
  2. BN和dropout,以及他们的相对位置和顺序
  3. meta-feature的使用,比如说词性,情感,还有各种语言学特征和元信息等
  4. 要用CNN的话,用空洞版本,大窗口
  5. 数据增强,drop,shuffle,replace,近义词,扩充,截取
  6. 循环学习率(这个base max step 调的好,能巨大加速收敛速度)
  7. char/subword level的使用
  8. 词元化,词干化(有收益的比较少)怼好分词
  9. 不均衡下的采样,梯度放缩,focal loss
  10. 伪标签,半监督
  11. 去停用词(基本都是负作用),标点保留还是去掉
  12. 过拟合后冻层finetune
  13. 长短文本各适合什么模型呢,仅在一个数据集上发现,ngram+svm可以吊打深度模型,文本挺长的,结论应该不可以泛化
  14. 多embedding concat,mean,收益不稳定,有时候能发现加速收敛
  15. 加宽加深(知乎看山杯)
  16. boosting(知乎看山杯)
  17. vocab的数量,是否统一替换或者过滤低频词(kaggle avito)
  18. 网络增加冗余的激活然后concat(kaggle mecri)
  19. Maxlen覆盖百分之99就可以了,不需要最大
  20. 还有一招,换种子

总结一下,数据量足够的情况下,强行破坏分布的行为,都有可能是无用功,比如清洗。但是小数据,或者分布有偏,就考验你能不能往正确的方向上改了。文本分类的论文,除了textCNN,fasttext,bert(顺路碾压下)。恕我直言,其他的哈哈哈哈,故事讲的一个比一个好看。就普适性(10个以上数据集的表现)来看,几乎所有的吊炸天structure可以被精调的两层lstm干掉。

参考链接

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-01-14 01:58:30  更:2022-01-14 01:59:42 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年1日历 -2025/1/10 16:37:56-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码