IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> LDA主题模型 -> 正文阅读

[人工智能]LDA主题模型

一 迪利克雷分布

①多项分布
在这里插入图片描述
如果多元随机离散变量X=(X1,X2,X3…)的概率函数是:
在这里插入图片描述则可以说随机变量X满足(n,p)的多项分布

②迪利克雷分布

在这里插入图片描述
上面的迪利克雷分布概率密度函数的意思就是:
某一个分布的参数在a1,a2,a3…的情况下参数是X1,X2…的概率密度
Dirichlet分布是某一种分布的参数的分布。Dirichlet分布出现的场景,总是用于生成别的分布(更确切地说,总是用于生成Multinomial分布)。这句话的意思是说Multinomial分布的参数n,p是由Dirichlet分布决定的。就是说

二 潜在LDA主题模型

在这里插入图片描述
根据这一个模型的示意图我们可以得到文本-单词数据的生成主要是一个三元组:(文档-话题-单词),但我们只是观测到了文档和单词,其中z为话题,代表隐变量。并且模型主要有两种参数:
(1)P(z | d):在文档d中出现话题z的概率,P(z | d)满足一个多项分布,而这个多项分布的参数满足超参数为X的迪利克雷分布。这一种文档-话题的迪利克雷分布数有(文档总数)个。
(2)P(w| z):在话题z中出现单词w的概率,P(w | z)满足另一个多项分布,而这个多项分布的参数满足超参数为Y(和(1)中的那个超参数不一样)的迪利克雷分布。一种话题-单词的迪利克雷分布数有K(话题总数)个。

三 LDA模型的文本生成过程

LDA模型的文本生成过程如下:
①随机生成K个话题-单词分布(K是话题总数),生成的K个分布都是多项分布,这些分布的前验分布都是参数为X的迪利克雷分布
②随机生成N个文章-话题分布(N是话题总数),生成的N个分布都是多项分布,这些分布的前验分布都是参数为Y的迪利克雷分布
③随机生成文本的单词,具体的过程如下:
(1)基于①中的迪利克雷分布的多项分步来生成话题
(2)基于(1)生成的话题和②中的多项分布来生成单词
(3)一个一个单词最后变成一篇文章,所有的概率潜在语义分析都是这样生成文章的,表现的形式就是文档-单词矩阵。所以可以把已有的文档-单词矩阵当作训练集来训练参数
在一般的情况之下话题个数K都是给定的,实际上是通过实践来选定的。两个迪利克雷分布的超参数X和Y都是给定的。在没有先验知识的情况下X,Y都被赋值为1。这样可以看作吧它们两个“一视同仁”并且LDA主题模型可以使用一个联合分布来表示:在这里插入图片描述
这个式子就是给定了超参数X,Y的情况下LDA主题模型生成所有的给定的文档-单词矩阵的概率

四 LDA主题模型的学习方法

①吉布斯采样
在这里插入图片描述
②变分EM算法

五 LDA主题模型输出以及应用

(1)输出:除了推断出这些主题,LDA还可以推断每篇文章在主题上的分布。例如,X文章大概有60%在讨论“空间探索”,30%关于“电脑”,10%关于其他主题
(2)这些主题分布可以有多种用途:
①聚类: 主题是聚类中心,文章和多个类簇(主题)关联。聚类对整理和总结文章集合很有帮助。
特征生成:LDA可以生成特征供其他机器学习算法使用。如前所述,LDA为每一篇文章推断一个主题分布;K个主题即是K个数值特征。这些特征可以被用在像逻辑回归或者决策树这样的算法中用于预测任务。(重点,可以用于数据预处理)
③降维:每篇文章在主题上的分布提供了一个文章的简洁总结。在这个降维了的特征空间中进行文章比较,比在原始的词汇的特征空间中更有意义。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-07-23 10:47:03  更:2021-07-23 10:50:04 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/17 20:20:54-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码