| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> Convolutional Neural Networks for Sentence Classification(卷积神经网络句子分类) -> 正文阅读 |
|
[人工智能]Convolutional Neural Networks for Sentence Classification(卷积神经网络句子分类) |
目录 摘要
We report on a series of experiments with convolutional neural networks (CNN) trained on top of pre-trained word vectors for sentence-level classification tasks. We show that a simple CNN with little hyperparameter tuning and static vectors achieves excellent results on multiple benchmarks. Learning task-specific vectors through fine-tuning offers further gains in performance. We additionally propose a simple modification to the architecture to allow for the use of both task-specific and static vectors. The CNN models discussed herein improve upon the state of the art on 4 out of 7 tasks, which include sentiment analysis and question classification.
我们报告了一系列在预训练词向量之上训练的卷积神经网络(CNN)实验,用于句子级分类任务。我们表明,几乎没有超参数调整和静态向量的简单CNN在多个基准上均能获得出色的结果。 通过微调学习特定任务的向量可进一步提高性能,另外建议对体系结构进行简单的修改,以允许使用特定任务的向量和静态向量,本文讨论的CNN模型在7个任务中的4个改进了现有技术,其中包括情感分析和问题分类。
a series of 一系列、pre-trained word vectors预训练词向量、 sentence-level classification tasks.句子级分类任务、 hyperparameter tuning 超参数调整 static vectors静态向量。multiple benchmarks多个基准。fine-tuning 微调 the architecture体系、sentiment analysis 情感分析?question classification.问题分类
超参数:超参数是在建立模型时用来控制算法行为的参数。这些参数不能从正常的训练过程中学习。他们需要在训练模型之前被分配。 超参数调整的方法:网格搜索、随机搜索、贝叶斯调参、手动调参。 预训练词向量方式:?Word2Vec、?GLOVE、FastText、n-gram。 sequence-level task(句子级别任务): 如情感分类等各种句子分类问题; 推断两个句子的是否是同义等.(判断两个句子是相近、矛盾、中立) 即给出一对(a pair of)句子, 判断两个句子是entailment(相近),?contradiction(矛盾)还是neutral(中立)的. 由于也是分类问题, 也被称为sentence pair classification tasks. 会自己找对应任务的相关经典数据集。 静态向量的简单CNN 将一个词在整个语料库中的共现上下文信息聚合至该词的向量表示中,也就是说,对于任意一个词,其向量表示是恒定的,不随其上下文的变化而变化。(缺陷无法表达多意性) 基准模型: baseline一词应该指的是对照组,基准线,就是你这个实验有提升,那么你的提升是对比于什么的提升,被对比的就是baseline。 引言
Deep learning models have achieved remarkable results in computer vision (Krizhevsky et al., 2012) and speech recognition (Graves et al., 2013) in recent years. Within natural language processing, much of the work with deep learning methods has involved learning word vector representations through neural language models (Bengio et al., 2003; Yih et al., 2011; Mikolov et al., 2013) and performing composition over the learned word vectors for classification (Collobert et al., 2011). Word vectors, wherein words are projected from a sparse, 1-of-V encoding (here V is the vocabulary size) onto a lower dimensional vector space via a hidden layer, are essentially feature extractors that encode semantic features of words in their dimensions. In such dense representations, semantically close words are likewise close—in euclidean or cosine distance—in the lower dimensional vector space.
近年来,深度学习模型在计算机视觉(Krizhevsky et al., 2012)和语音识别(Graves et al., 2013)中取得了显著的效果,在自然语言处理中,深度学习方法的许多工作都涉及通过神经语言模型(Bengio et al., 2003; Yih et al., 2011; Mikolov et al., 2013)来学习词向量表示。 并在学习的词向量进行分类(Collobert et al., 2011)。词向量本质是特征提取,其将词从稀疏的V编码1(这里V是词汇量)通过隐藏层投影到较低维度的向量空间上,该特征提取对词在其维度上的语义特征进行编码,在这种密集表示中,语义上相近的词在较低维向量空间中也很相近,(如欧几里得或余弦距离)。
Deep learning models 深度学习模型、remarkable result显著的效果、 computer vision 计算机视觉、speech recognition 语音识别、 Within natural language processing 在自然语言处理中。 much of the work 许多工作、word vector representations词向量表示。 neural language models 神经语言模型、 the learned word vectors for classification? 在学习的词向量上进行分类。 a sparse, 1-of-V encoding 稀疏的V编码1 a lower dimensional vector space? 较低维度的空间向量。 via a hidden layer 通过隐藏层。 essentially feature extractors 本质是特征提取。 semantic features of words? 词的语义特征。 dense representations 密集表示、semantically close words 语义上相近的词。 euclidean or cosine distance 欧几里德距离和余弦相似度距离。
特征提取:词袋模型、TF-IDF文本、特征提取?、word2vector、GloVe、等 稀疏的词向量编码: 稀疏矩阵的存储 首先何谓稀疏矩阵,就是在矩阵中有众多的零元素。稀疏矩阵可以用稀疏度来进行定量判定。稀疏度的计算公式如下: 稀疏矩阵存储应该满足以下条件:
共有三种存储方式:散居存储、按列/行存储、三角存储 词的语义特征 语义信息:常说的上下文信息,也就是指一个单词与其周围单词之间的关联。 语义相似度
衡量多维空间中各个点之间得绝对距离,当数据很稠密并且连续时,这是一种很好得计算方法。
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。 一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小,余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越不相似。
原文Convolutional neural networks (CNN) utilize layers with convolving filters that are applied to?local features (LeCun et al., 1998). Originally invented for computer vision, CNN models have subsequently been shown to be effective for NLP and have achieved excellent results in semantic parsing (Yih et al., 2014), search query retrieval (Shen et al., 2014), sentence modeling (Kalchbrenner et al., 2014), and other traditional NLP tasks (Collobert et al., 2011). 翻译??卷积神经网络(CNN)利用带有卷积滤波器的图层应用于局部特征(LeCun et al., 1998)。 CNN模型最初是为计算机视觉而发明的,后来被证明对NLP有效,并且在语义解析(Yih et al., 2014)、搜索查询检索(Shen et al., 2014)、句子建模(Kalchbrenneret et al., 2014)和其他传统的NLP任务(Collobert et al., 2011)方面取得了优异的结果。 单词解释local features 局部特征、 layers with convolving filters 带有卷积滤波器的图层。 semantic parsing 语义解析、search query retrieval 搜索查询检索、sentence modeling句子建模 技术解读?传统NLP任务:句子建模、语义解析、搜索查询检索。 CNN技术 主要结构
其中、卷积层、池化层和激活层可以叠加重复使用,这是CNN的核心结构。 在经过数次卷积和池化之后,最后会先将多维的数据进行“扁平化”,也就是把(height,width,channel)的数据压缩成长度为height × width × channel的一维数组,然后再与FC层连接,这之后就跟普通的神经网络无异了 卷积层(Convlotuion layer) 卷积层由一组滤波器组成,滤波器为三维结构,其深度由输入数据的深度决定,一个滤波器可以看作由多个卷积核堆叠形成。这些滤波器在输入数据上滑动做卷积运算,从输入数据中提取特征。在训练时,滤波器上的权重使用随机值进行初始化,并根据训练集进行学习,逐步优化。 (其实就是利用数学公式提取特征类)
卷积核 卷积运算是指以一定间隔滑动卷积核的窗口,将各个位置上卷积核的元素和输入的对应元素相乘,然后再求和(有时将这个计算称为乘积累加运算),将这个结果保存到输出的对应位置。卷积运算如下所示:
填充/填白(Padding) 在进行卷积层的处理之前,有时要向输入数据的周围填入固定的数据(比如0等),使用填充的目的是调整输出的尺寸,使输出维度和输入维度一致;?(输入维度和输出维度一致)
步幅与步长(Stride)
若希望输出尺寸比输入尺寸小很多,可以采取增大步幅的措施。但是不能频繁使用步长为2,因为如果输出尺寸变得过小的话,即使卷积核参数优化的再好,也会必可避免地丢失大量信息; 如果用f 表示卷积核大小,s 表示步长,w 表示图片宽度,h 表示图片高度,那么输出尺寸可以表示为: 滤波器(Fitter) 卷积核(算子)是二维的权重矩阵;而滤波器(Filter)是多个卷积核堆叠而成的三维矩阵。?
上面的卷积过程,没有考虑彩色图片有RGB三维通道(Channel),如果考虑RGB通道,那么每个通道都需要一个卷积核,只不过计算的时候,卷积核的每个通道在对应通道滑动,三个通道的计算结果相加得到输出。即:每个滤波器有且只有一个输出通道。?
偏置
多个filter也是一样的工作原理:如果存在多个filter,这时我们可以把这些最终的单通道输出组合成一个总输出,它的通道数就等于filter数。这个总输出经过非线性处理后,继续被作为输入馈送进下一个卷积层,然后重复上述过程。? 因此,这部分一共4个超参数:滤波器数量K ,滤波器大小F ,步长S ,零填充大小P 。 卷积的三种模式 三种卷积模式是对卷积核移动范围的不同限制。
卷积的本质 在具体介绍各种卷积之前,我们有必要再来回顾一下卷积的真实含义,从数学和图像处理应用的意义上来看一下卷积到底是什么操作。目前大多数深度学习教程很少对卷积的含义进行细述,大部分只是对图像的卷积操作进行了阐述。以至于卷积的数学意义和物理意义很多人并不是很清楚,究竟为什么要这样设计,这么设计的原因如何。 追本溯源,我们先回到数学教科书中来看卷积。在泛函分析中,卷积也叫旋积或者褶积,是一种通过两个函数x(t)和h(t)生成的数学算子。其计算公式如下:(通过两个函数生成数学算子) 公式写的很清楚了,两个函数的卷积就是先将一个函数进行翻转(Reverse),然后再做一个平移(Shift),这便是"卷"的含义。而"积"就是将平移后的两个函数对应元素相乘求和。所以卷积本质上就是一个Reverse-Shift-Weighted Summation的操作。?(有空搞搞泛函分析) 数无形时少直观。我们用两个函数图像来直观的展示卷积过程和含义。两个函数x(t)和h(t)的图像 如下图所示: 我们先对其中一个函数h(t)进行翻转(Reverse)操作:? 然后进行平移(Shift): 以上过程是为"卷"。然后是"积"的过程,因为是连续函数,这里相乘求和为积分形式,图中绿色部分即为相乘求和部分。? 那么为什么要卷积?直接元素相乘不好吗?就图像的卷积操作而言,笔者认为卷积能够更好提取区域特征,使用不同大小的卷积算子能够提取图像各个尺度的特征。卷积在信号处理、图像处理等领域有着广泛的应用。当然,之于深度学习而言,卷积神经网络主要用于图像领域。回顾了卷积的本质之后,我们再来一一梳理CNN中典型的卷积操作。? 具体卷积类型参考链接: 常规卷积:单通道卷积、多通道卷积。 3D卷积、转置卷积、?卷积、深度可分离卷积、空洞卷积。讲解如下 池化层(Pooling layer) 池化(Pooling),有的地方也称汇聚,实际是一个下采样(Down-sample)过程,用来缩小高、长方向的尺寸,减小模型规模,提高运算速度,同时提高所提取特征的鲁棒性。简单来说,就是为了提取一定区域的主要特征,并减少参数数量,防止模型过拟合。?(减少参数数量,防止模型过拟合) 池化层通常出现在卷积层之后,二者相互交替出现,并且每个卷积层都与一个池化层一一对应。 常用的池化函数有:平均池化(Average Pooling / Mean Pooling)、最大池化(Max Pooling)、最小池化(Min Pooling)和随机池化(Stochastic Pooling)等,其中3种池化方式展示如下。
池化操作也有一个类似卷积核一样东西在特征图上移动,书中叫它池化窗口3,所以这个池化窗口也有大小,移动的时候有步长,池化前也有填充操作。因此,池化操作也有核大小f 、步长s 和填充p 参数,参数意义和卷积相同。Max池化的具体操作如下(池化窗口为2 × 2 ,无填充,步长为2 ):
池化层有三个特征: 没有要学习的参数,这和池化层不同。池化只是从目标区域中取最大值或者平均值,所以没有必要有学习的参数。 激活层 激活函数:激活函数(Activation Function)运行时激活神经网络中某一部分神经元,将激活信息向后传入下一层的神经网络。
作用:增加模型的非线性分割能力、提高模型鲁棒性,缓解梯度消失的问题、加速模型收敛等。 常用激活函数分类:主要分为饱和激活函数、非饱和激活函数。 Sigmoid函数 TanH函数 Softmax函数 非饱和激活函数 ReLU函数: 激活函数不仅仅以上几种,还有许多不同的激活函数,以上几种是比较常用的,会自己进行总结。活学活用都行啦的样子与打算。激活函数 光栅化
全连接层 可以通过BP网络来理解全连接层, 只不过将原始数据数据换成以上各层的输出数据。 以上总结完成了卷积神经网络的前向传播,有时间将公式全部推导一遍,后续大致梳理其反向传播概述。 反向传播 多层感知机反向传播的数学推导,主要是用数学公式来进行表示的,在全连接神经网络中,它们并不复杂,即使是纯数学公式也比较好理解,而卷积神经网络反向传播算法相对比较复杂。 卷积神经网络反向传播算法:卷积神经网络反向传播? 池化层的反向传播:以最大池化为例 上图中,池化后的数字6对应于池化前的红色区域,实际上只有红色区域中最大值数字6对池化后的结果有影响,权重为1,而其它的数字对池化后的结果影响都为0。假设池化后数字6位置的误差为δ ,反向传播回去时,红色区域中最大值对应的位置误差即等于δ ,而其它3个位置对应的误差为0。 因此,在卷积神经网络最大池化前向传播时,不仅要记录区域的最大值,同时也要记录下来区域最大值的位置,方便误差的反向传播。(基于区域最大值位置) 而平均池化就更简单了,由于平均池化时,区域中每个值对池化后结果贡献的权重都为区域大小的倒数,所以反向传播回来时,在区域每个位置的误差都为池化后误差除以区域的大小。 (反向传播看权重共享) 卷积的反向传播 虽然卷积神经网络的卷积运算是一个三维张量的图片和一个四维张量的卷积核进行卷积运算,但最核心的计算只涉及二维卷积,因此我们先从二维的卷积运算来进行分析: 如上图所示,我们求原图A处的误差,就先分析,它在前向传播中影响了下一层的哪些结点。显然,它只对结点C有一个权重为B的影响,对卷积结果中的其它结点没有任何影响。因此A的误差应该等于C点的误差乘上权重B。? 我们现在将原图A点位置移动一下,则A点以权重C影响了卷积结果的D点,以权重B影响了卷积结果的E点。那它的误差就等于D点误差乘上C加上E点的误差乘上B。大家可以尝试用相同的方法去分析原图中其它结点的误差,结果会发现,原图的误差,等于卷积结果的delta误差经过零填充后,与卷积核旋转180度后的卷积。 总结卷积神经网络的训练过程 CNN泛化能力提高技巧 增加神经网络深度; 修改激活函数,使用较多的是ReLU激活函数; 调整权重初始化技术,一般来说,均匀分布初始化效果较好; 调整batch大小(数据集大小); 扩展数据集(data augmentation),可以通过平移、旋转图像等方式扩展数据集,使学习效果更好; 采取正则化; 采取Dropout方法避免过拟合。 CNN类型综述 本综述将最近的 CNN 架构创新分为七个不同的类别,分别基于空间利用、深度、多路径、宽度、特征图利用、通道提升和注意力[^12]。 创新视角 参数优化、正则化、结构重组、处理单元的重构和新模块的设计。 引入数据增强、引入注意力、? 会自己根据CNN模型来进行文章的编写创新。 tensorflow代码实现CNN CNN模型的搭建与搭建全连接层网络的主要步骤是相同的,都是搭建好网络层,定义损失函数和优化之后迭代训练网络。只是网络结构不再只有全连接层,损失函数也不再使用简单的平方差来定义,并且额外还定义了一种精确度函数(accuracy)来评判最后模型输出的准确率。因为识别手写数字是有个多分类问题,因此使用的是softmax分类器,损失函数使用交叉熵来定义。因为CNN网络的复杂性,CNN模型中也采用了dropout操作来优化模型。 搭建网络结构:
Step=0, Train loss=0.3977,Test accuracy=0.75 Step=100, Train loss=0.3386,Test accuracy=0.76 Step=200, Train loss=0.2025,Test accuracy=0.76 Step=300, Train loss=0.2278,Test accuracy=0.76 Step=400, Train loss=0.1037,Test accuracy=0.76 Step=500, Train loss=0.3203,Test accuracy=0.77 Step=600, Train loss=0.1972,Test accuracy=0.77 Step=700, Train loss=0.2650,Test accuracy=0.77 Step=800, Train loss=0.3125,Test accuracy=0.77 Step=900, Train loss=0.2740,Test accuracy=0.77 Step=1000, Train loss=0.3872,Test accuracy=0.78 Step=1100, Train loss=0.1174,Test accuracy=0.78 Step=1200, Train loss=0.2942,Test accuracy=0.78 Step=1300, Train loss=0.1785,Test accuracy=0.78 Step=1400, Train loss=0.1765,Test accuracy=0.78 Step=1500, Train loss=0.1228,Test accuracy=0.79 Step=1600, Train loss=0.1618,Test accuracy=0.79 Step=1700, Train loss=0.3901,Test accuracy=0.79 Step=1800, Train loss=0.2776,Test accuracy=0.79 Step=1900, Train loss=0.1562,Test accuracy=0.79 Step=2000, Train loss=0.3695,Test accuracy=0.79 Step=2100, Train loss=0.2548,Test accuracy=0.79 Step=2200, Train loss=0.1935,Test accuracy=0.80 Step=2300, Train loss=0.2357,Test accuracy=0.80 Step=2400, Train loss=0.1429,Test accuracy=0.80 Step=2500, Train loss=0.2501,Test accuracy=0.80 Step=2600, Train loss=0.0757,Test accuracy=0.80 Step=2700, Train loss=0.1751,Test accuracy=0.80 Step=2800, Train loss=0.1364,Test accuracy=0.80 Step=2900, Train loss=0.1119,Test accuracy=0.81 Step=3000, Train loss=0.1932,Test accuracy=0.81 Step=3100, Train loss=0.0863,Test accuracy=0.81 Step=3200, Train loss=0.1375,Test accuracy=0.81 Step=3300, Train loss=0.2874,Test accuracy=0.81 Step=3400, Train loss=0.2263,Test accuracy=0.81 Step=3500, Train loss=0.2988,Test accuracy=0.81 Step=3600, Train loss=0.2046,Test accuracy=0.82 Step=3700, Train loss=0.0886,Test accuracy=0.82 Step=3800, Train loss=0.1063,Test accuracy=0.82 Step=3900, Train loss=0.2221,Test accuracy=0.82 Step=4000, Train loss=0.1758,Test accuracy=0.82 Step=4100, Train loss=0.1478,Test accuracy=0.82 Step=4200, Train loss=0.3418,Test accuracy=0.82 Step=4300, Train loss=0.1630,Test accuracy=0.82 Step=4400, Train loss=0.2907,Test accuracy=0.82 Step=4500, Train loss=0.1294,Test accuracy=0.82 Step=4600, Train loss=0.1838,Test accuracy=0.83 Step=4700, Train loss=0.2521,Test accuracy=0.83 Step=4800, Train loss=0.1400,Test accuracy=0.83 Step=4900, Train loss=0.3340,Test accuracy=0.83 原文In the present work, we train a simple CNN with one layer of convolution on top of word vectors obtained from an unsupervised neural language model. These vectors were trained by Mikolov et al. (2013) on 100 billion words of Google News, and are publicly available.1 We initially keep the word vectors static and learn only the other parameters of the model. Despite little tuning of hyperparameters, this simple model achieves excellent results on multiple benchmarks, suggesting that the pre-trained vectors are ‘universal’ feature extractors that can be utilized for various classification tasks. Learning task-specific vectors through fine-tuning results in further improvements. We finally describe a simple modification to the architecture to allow for the use of both pre-trained and task-specific vectors by having multiple channels.(多个通道) 翻译在目前的工作中,我们训练一个简单的CNN,从无监督神经语言模型得到的词向量的基础上进行一层卷积。这些向量由Mikolov et al.,(2013)训练关于Google新闻的1000亿个单词,并且已经公开可用。我们最初使词向量保持静态,仅学习模型的其他参数。尽管对超参数的调整很少,但这个简单的模型在多个基准上均能获得出色的结果,这表明预训练的向量是 “通用”特征提取,可用于各种分类任务。通过微调学习特定任务的向量可以进一步改进。最后,我们描述了对体系结构的简单修改,以允许通过具有多个通道使用预训练向量和特定任务的向量。 单词解释
技术解读本文没有什么相关技术,但是有一条重要的写作思路:预训练词向量必须在多个基准模型上看其表现,然后表明其是否可以用于特征提取。 本文说明了经典数据集:Gooogle 新闻1000亿个单词。 原文Our work is philosophically similar to Razavian et al. (2014) which showed that for image classification, feature extractors obtained from a pretrained deep learning model perform well on a variety of tasks—including tasks that are very different from the original task for which the feature extractors were trained. 翻译我们的工作在哲学上与Razavian et al. (2014)相似,这表明,对于图像分类,从预训练的深度学习模型中获得的特征提取在各种任务上表现良好,包括与训练特征提取的原始任务截然不同的任务。 单词解释philosophically? 哲学上、 image classification,? 图像分类、 the original task 原始任务、 技术解读、本段没有涉及相关技术,但是要学会慢慢的积累nlp各个领域的相关知识点与技术解读,争取往自己的顶会期刊上靠拢。 Model原文The model architecture, shown in figure 1, is a slight variant of the CNN architecture of Collobert et al. (2011). Let xi ∈ R k be the k-dimensional word vector corresponding to the i-th word in the sentence. A sentence of length n (padded where?necessary) is represented as? here ⊕ is the concatenation operator. In general, let xi:i+j refer to the concatenation of words xi , xi+1, . . . , xi+j . A convolution operation involves a filter w ∈ R hk, which is applied to a window of h words to produce a new feature. For example, a feature ci is generated from a window of words xi:i+h?1 by: Here b ∈ R is a bias term and f is a non-linear function such as the hyperbolic tangent. This filter is applied to each possible window of words in the sentence {x1:h, x2:h+1, . . . , xn?h+1:n} to produce a feature map c = [c1, c2, . . . , cn?h+1],? with c ∈ R n?h+1. We then apply a max-over time pooling operation (Collobert et al., 2011) over the feature map and take the maximum value c? = max{c} as the feature corresponding to this particular filter. The idea is to capture the most important feature—one with the highest value—for each feature map. This pooling scheme naturally deals with variable sentence lengths. We have described the process by which one feature is extracted from one filter. The model uses multiple filters (with varying window sizes) to obtain multiple features. These features form the penultimate layer and are passed to a fully connected softmax layer whose output is the probability distribution over labels. In one of the model variants, we experiment with having two ‘channels’ of word vectors—one that is kept static throughout training and one that is fine-tuned via backpropagation (section 3.2).2 In the multichannel architecture, illustrated in figure 1, each filter is applied to both channels and the results are added to calculate ci in equation (2). The model is otherwise equivalent to the single channel architecture.(单通道体系结构) 翻译 ?在一种模型变体中,我们尝试使用两个词向量的“通道”,一个在整个训练过程中保持静态,另一个通过反向传播进行微调(第3.2节)。在多通道架构中,如图1所示,每个滤波器都应用于两个通道,并且将结果相加以通过公式(2)计算ci。该模型在其他方面等效于单通道体系结构。?
单词解释
技术解读本段讲解了模型的基本架构,卷积操作——池化操作——全连接softmax操作。 Regularization原文
单词解释co-adaptation of hidden units? 隐藏层单元的耦合 技术解读dropout技术阻止隐藏层单元的耦合。 数据集和实验
超参数和模型训练
翻译
涉及技术dropout技术
l2范数网格搜索
随机梯度下降
预训练词向量
技术解读word2vec(连续词袋模型(CBOW)、Skip-gram模型)
预训练词向量
模型变体
结论和结果
模型实验结果对比见表2。模型的baseline随机初始化词向量(CNN-rand)并未表现最佳,预期使用预训练词向量可以提升效果,但结果幅度惊人。即使带有静态向量的简单模型(CNN-static)也表现不错,但对比使用复杂池化方案的复杂深度模型或事先计算解析树的应用,这些结果表明进行预训练的词向量是通用的特征提取器,能在不同数据集中使用,根据具体任务对预训练词向量进行微调又能进一步改进效果。?
多通道和单通道
静态和非静态表示
? ? Futher Observation
总结构建词向量的方式:基于预训练模型、随机初始化词向量、微调词向量。两通道词向量 写作思路以证明某种观点为主线来设计不同模型,在不同数据上进行性能测试。
本文写作思路????????使用不同的方式来构建预训练词向量,并测试多个模型,在不同数据集上测试性能,依次来证明预训练的词向量是通用的特征提取器,能在不同数据集中使用,根据具体任务对预训练词向量进行微调又能进一步改进效果 写作思路证明某种观点——自己构建不同的模型在数据集上测试性能。 会自己构建基准模型,并进行不同的优化。 读后心得?会有利用该层的误差求得梯度函数的导数的思维。 会根据某一基准模型和综述开发出自己的模型,并用代码和数据集检测。 针对某一架构进行创新。 会自己总结论文中的创新思路。 训练词向量在多个基准上进行训练,会自己看看效果。 设计模型的时候,会自己找评价指标与多个基准模型,来评价预训练词向量的质量。 会了解词向量组成句子的表示方法 其实论文模型部分就是把你做实验的步骤以及过程都给详细推导出来,重点是指明使用的那种技术是谁提出的。 单词的维度什么的都必须将其搞清楚,相当的重要。 论文思路是从那来的,真心特别俩像了节 为什么使用这一步,为什么使用那一步,相当的重要。 后期,不断研究下代码,把代码给其研究透彻,升级下自己的思路。并不断的复现论文。 争取发现自己的写作点。冲刺顶刊!
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/28 2:25:58- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |
数据统计 |