IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> TextCNN论文解读--Convolutional Neural Networks for Sentence Classification -> 正文阅读

[人工智能]TextCNN论文解读--Convolutional Neural Networks for Sentence Classification

一、 摘要

CNN+static vector 在句子分类的任务中表现很好,而且基于具体task微调后的task-specific vectors 表现的更好

二、模型结构

在这里插入图片描述
值得注意的是:我们的实验对象有2个channels。在第一个里面,词向量是训练过程中保持是static;在第二个里面,词向量在训练中根据backPropagation微调。
2.1 正则化
(1)倒数第二层增加dropout
(2)倒数第二层增加L2正则的权重限制。

三、数据和实验

3.1 调参和训练
(1)超参数,从网格搜索中得来
(2)在验证集上运用了early stopping
当没有验证集时,从训练集中随机选取10%来作为验证集。优化器是SGD.
3.2 预训练的词向量
当没有大量的训练数据时,使用公开可得到的 word2vec 向量 是一种流行的可提高表现的方法。未出现在 word2vec 中的词,其向量随机初始化。
3.3 模型变体们
CNN-rand: 所有单词的词向量随机初始化,在训练中微调。
CNN-static: 词向量来自于word2vec ,在训练中保持 static。
CNN-non-static: 词向量来自于word2vec ,在训练中微调
CNN-multichannel: 两套来自于word2vec 的词向量。一套static,一套在训练中微调。

四、结果和分析

CNN-rand 结果不好;CNN-static 很优秀,但CNN-non-static 表现更好。
4.1 多channel 还是单channel
我们原本以为多channel 能够防止 过拟合,可是结果表现却时mixup,需要更多的研究。例如,代替使用多channel,而是 增加向量的维度,这些增加的维度在训练中可以被修改。
4.2 静态和非静态的语义表征
使用非静态的语义表征的向量,其针对具体的任务更专业 specific。
4.3 进一步的观察

  • 另外一哥们也用CNN做实验,结果差得多。我们对比发现:(1)他的结构和我们的单channel模型类似。(2)差异化在于 ,我们的模型有更大的capacity,即多种核宽和多种特征map
  • dropout+比necessary更大的网络 贡献很大。
  • 从分布U[-a,a]中为不在word2ec的词 采样 数值,也获得了一点提升。
  • Adadelta、Adadelta的效果类似,不过需要的epoch要少。

五、结论

无监督训练出来的word2vec 真的很不错。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-02-19 01:09:21  更:2022-02-19 01:09:42 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 18:49:56-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码