| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> NLP - 词的表示:BowOne-hot TF-IDF,Word2VNLP -> 正文阅读 |
|
[人工智能]NLP - 词的表示:BowOne-hot TF-IDF,Word2VNLP |
文章目录参考转载自: 词的表示潜在语义分析方法(BOW)潜在语义分析方法使用BOW(Bog of Words)的概念:每个词都被以编码的向量所表示,每个词都是一种稀疏的表示; Countervector 计数
在潜在语义分析中,每一行(特征列)表示的是某个词,每个列表示的是词出现在在某个文本中的次数。 TF-IDF对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取 tf 词频 作为测度,就可以体现同类文本的特点。 另外考虑到单词区别不同类别的能力,tf-idf法认为一个单词出现的文本频数越小,它区别不同类别文本的能力就越大。因此引入了逆文本频度idf的概念。 TFIDF中,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降. TF-IDF 的不足: BOW 和 TF-IDF 方法的问题不管是Countervector还是 TF-IDF,我们发现它们都是从 我们会在处理这两句话的时候是不会考虑前一个句子或者后一个句子是什么意思,但是他们之间是存在某些关系的 词的独热(One-hot )表示到目前为止最常用的词表示方法是 One-hot Representation,这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个向量就代表了当前的词。 “可爱”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …] 每个词都是茫茫 0 海中的一个 1。 缺点分析: 独热问题的改进解决维度过大的问题独热编码存在维度过大的缺点。对此进行如下改进: 1、将vector每一个元素由整形改为浮点型,变为整个实数范围的表示; “词嵌入”也由此得名。 本质:词向量是训练神经网络时候的隐藏层参数或者说矩阵。 解决无语义的问题 – 词的分布式表示传统的独热表示仅仅将词 Harris 在 1954 年提出的 Firth 在 1957年对分布假说进行了进一步阐述和明确:词的语义由其上下文决定。 以(CBOW)为例,如果有一个句子“the cat sits one the mat”,在训练的时候,将“the cat sits one the”作为输入,预测出最后一个词是“mat”。 分布式表示的最大优点在于它具有非常强大的 下图的神经网络语言模型(NNLM)采用的就是文本分布式表示。 而词向量(word embedding)是训练该语言模型的一个附加产物,即图中的Matrix C。 所以我们可以将我们的任务拆解成两部分: Word Embedding 词嵌入基于神经网络的 词嵌入(Word Embedding) 通过很多机器学习模型 将 Word Embedding有的时候也被称作为 使用场景目前为止,Word Embedding 可以用到特征生成,文件聚类,文本分类和自然语言处理等任务,例如:
上面列举的是文本相关任务,当然目前词嵌入模型已经被扩展到方方面面。典型的,例如:
可以说,词嵌入为寻找物体之间 Word embedding的训练方法大致可以分为两类: 1、无监督或弱监督的预训练优点:不需要大量的人工标记样本就可以得到质量还不错的embedding向量 2、端对端(end to end)的有监督训练。优点:学习到的embedding向量也往往更加准确 word2vec不关心后续的应用场景,其学习到的是就是根据共现信息得到的单词的表达,用n-gram信息来监督,在不同的子task间都会有一定效果。而end2end训练的embedding其和具体子task的学习目标紧密相关,直接迁移到另一个子task的能力非常弱。 常用的word embedding分为dense和sparse两种形式: 参考资料 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 22:34:17- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |