IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 自然语言处理 -> 正文阅读

[人工智能]自然语言处理

? ? ? ?自然语言处理用于拼写检查、关键字检索、文本挖掘、文本分类、机器翻译、客服系统以及负责对话系统。

1.语言模型

? ? ? ?举一个例子,我? 今天 下午?打? 篮球,P(S)称为语言模型,即用来计算一个句子概率的模型,P(S)的表达式如下:

?存在两个问题:

? ? ? ?1.数据过于稀疏

? ? ? ?2.参数空间太大

N-gram模型:

? ? ? ?在意识到这两个问题后,想办法优化一下模型,其实一个词出现的概率只可能跟他前面一个或者N个词相关,再往前的词实际上就没什么关系了,这就是N-gram模型,所以我们可以优化成这样:

2.词向量

? ? ? ? ? 将词转换为向量,意思相近的词的词向量越接近

?神经网络模型:

? ? ? ?比如我输入“我今天下午打”,我想让神经网络模型预测一下打后面接什么东西,如下图构造出神经网络模型,将“我”,“今天”,“下午”,“打”,这几个词的词向量输入,拼接成一个大的列向量,然后进入隐藏层和输出层,就和传统的神经网络是一样的了。

? ? ? ? 训练样本:包括前n-1个词的分别的向量,假定每个词向量大小为m

? ? ? ? 投影层:(n-1)*m首尾拼接起来的大向量

? ? ? ? 输? ?出:表示上下文为context(w)时,下一个词恰好为词典中第i个词的概率。

? ? ? ? ?归一化:

? ? ? ? ?神经网络优势:只要语料库中出现其中一个,那么其他相似句子的概率也会增大,求解的空间符合真实的逻辑。

? ? ? ? 神经网络实现模型:

? ? ? ? CNOW模型:输入上下文,预测中间的词是什么

? ? ? ?输入层:输入层是上下文的词语的词向量,在训练CBOW模型,词向量只是个副产品,确切来说,是CBOW模型的一个参数。训练开始的时候,词向量是个随机值,随着训练的进行不断被重新)。

? ? ? ?投影层:投影层对其求和,所谓求和,就是简单的向量加法。

? ? ? ?输出层:输出层输出最可能的w。由于语料库中词汇量是固定个,所以上述过程其实可以看做一个多分类问题。从|C|个分类中挑”一个。

? ? ? ?举个例子来说明,在输入中给出上下文的词向量,并且组合成一个大的列向量,然后将语料库中的词按照他们出现的频率构造出一个哈夫曼树(出现频率高的比较靠前),然后在每一层根据机器算出的参数\theta来计算出sigmoid函数值,计算出正例概率和负例概率(如下图),如果是正例就规定往右边走,如果是负例,就规定往左边走,如下图,最终就走到了“足球”这个点。那么得到“足球”的概率就如下图表示:

? ? ?

? ? ? ?CBOW求解目标:就是让足球出现的概率最大,一直优化参数\theta和输入,让概率p最大

? ?

? ?CBOW梯度上升求解过程:

? ? ? ? ? ? 计算出似然函数对输入的导数和参数\theta的导数:

? ? ? ? ? ??

? ? ? ?不过Xw是上下文的词向量的和,不是上下文单个词的词向量。怎么把这个更新量应用到单个词的词向量上去呢? word2vec采取的是直接将Xw的更新量整个应用到每个单词的词向量上去。

? ? ? ?Skip-gram模型:输入当前的词,想要得出上下文。

? ? ?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-12 13:09:55  更:2021-09-12 13:12:28 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 15:49:52-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码