[人工智能] Character-Aware Neural Language Models

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> Character-Aware Neural Language Models -> 正文阅读

[人工智能]Character-Aware Neural Language Models

Character-Aware Neural Language Models
第三周阅读材料代码
 csdn上的翻译
描述了一个简单的神经语言模型，输入部分只依赖于字符，预测以单词进行。
模型采用CNN和highway network over characters，输出结果到了一个long short-term memory (LSTM) recurrent neural network language model (RNN-LM)模型。

介绍

语言模型被形式化为一系列字符串（单词）上的概率分布，传统方法是 n 阶马尔可夫假设并通过计数和随后的平滑来估计 n-gram 概率，尽管基于计数的模型易于训练，但由于数据稀疏性，一些少见的 n-gram 的概率可能无法估计。
神经语言模型 Neural Language Models (NLM) 通过将词参数化为向量，并将它们用作神经网络的输入来解决 n-gram 数据稀疏问题。
但NLM对 subword information 视而不见。例如，他们不知道 eventful, eventfully, uneventful, and uneventfully 所应该在向量空间中具有的结构相关的嵌入。因此，稀有词的嵌入可能很难估计，从而导致稀有词（及其周围的词）有很高的perplexities值。这在long-tailed frequency 或具有动态词汇的领域（例如社交媒体）中尤其成问题。
此论文提出一种语言模型，通过 character-level 的CNN且利用subword information，其输出用作循环神经网络语言模型（RNN-LM）的输入。该模型无需预处理步骤，模型参数也很少

模型

请添加图片描述
结构如图。图挺糊，配字为：Figure 1: Architecture of our language model applied to an example sentence. Best viewed in color. Here the model takes absurdity as the current input and combines it with the history (as represented
by the hidden state) to predict the next word, is.
第一层是一个character embeddings (of dimension four) ，将它们堆叠起来形成矩阵 C^k. 然后在 Ck 和多个滤波器矩阵之间应用卷积运算。
有十二个过滤器——三个宽度为二的蓝色过滤器、四个宽度为三的黄色过滤器和五个宽度为四的红色过滤器。
max-over-time 池化操作来获得单词的固定维度表示，并将其提供给highway network。highway network的输出用作多层 LSTM 的输入
最后，在 LSTM 的隐藏表示上应用仿射变换和 softmax，以获得下一个单词的分布。最小化下一个词的预测的分布与实际词的之间的交叉熵。
逐元素加法、乘法和 sigmoid 运算符用圆圈表示，仿射变换用实线箭头表示。
知乎上的一些笔记

RNN是循环神经网络，适用于对序列现象进行建模。理论上，RNN 可以用隐藏状态 ht 总结到时间 t 的所有历史信息。然而，在实践中，由于梯度爆炸和消失，使用 vanilla RNN 学习long range dependencies是很困难的，这是Jacobian’s multiplicativity with respect to time的结论。
LSTM 通过在每个时间步用记忆单元向量 ct ∈ R^n 扩充 RNN 来解决学习long range dependencies的问题。
LSTM 中的记忆单元是时间相加的，能有效缓解梯度消失问题。
但梯度爆炸仍然是一个问题，在实践中简单的优化策略（如梯度裁剪）能解决这个问题。
字符级卷积神经网络在论文模型中，时间 t 的输入是CharCNN的输出。CV和 NLP 程序的架构不同之处在于NLP通常涉及时间卷积而CV是空间卷积。
Highway Network Srivastava et al.(2015). 与 LSTM 网络中的记忆单元类似，Highway Network层允许通过自适应地将输入的某些维度直接传送到输出来训练深度网络。
…………
通篇公式偏多

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

加:2022-02-09 20:42:12 更:2022-02-09 20:44:49

360图书馆购物三丰科技阅读网日历万年历 2025年7日历

-2025/7/31 6:02:59-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码