一 迪利克雷分布
①多项分布 如果多元随机离散变量X=(X1,X2,X3…)的概率函数是: 则可以说随机变量X满足(n,p)的多项分布
②迪利克雷分布
上面的迪利克雷分布概率密度函数的意思就是: 某一个分布的参数在a1,a2,a3…的情况下参数是X1,X2…的概率密度 Dirichlet分布是某一种分布的参数的分布。Dirichlet分布出现的场景,总是用于生成别的分布(更确切地说,总是用于生成Multinomial分布)。这句话的意思是说Multinomial分布的参数n,p是由Dirichlet分布决定的。就是说
二 潜在LDA主题模型
根据这一个模型的示意图我们可以得到文本-单词数据的生成主要是一个三元组:(文档-话题-单词),但我们只是观测到了文档和单词,其中z为话题,代表隐变量。并且模型主要有两种参数: (1)P(z | d):在文档d中出现话题z的概率,P(z | d)满足一个多项分布,而这个多项分布的参数满足超参数为X的迪利克雷分布。这一种文档-话题的迪利克雷分布数有(文档总数)个。 (2)P(w| z):在话题z中出现单词w的概率,P(w | z)满足另一个多项分布,而这个多项分布的参数满足超参数为Y(和(1)中的那个超参数不一样)的迪利克雷分布。一种话题-单词的迪利克雷分布数有K(话题总数)个。
三 LDA模型的文本生成过程
LDA模型的文本生成过程如下: ①随机生成K个话题-单词分布(K是话题总数),生成的K个分布都是多项分布,这些分布的前验分布都是参数为X的迪利克雷分布。 ②随机生成N个文章-话题分布(N是话题总数),生成的N个分布都是多项分布,这些分布的前验分布都是参数为Y的迪利克雷分布。 ③随机生成文本的单词,具体的过程如下: (1)基于①中的迪利克雷分布的多项分步来生成话题 (2)基于(1)生成的话题和②中的多项分布来生成单词 (3)一个一个单词最后变成一篇文章,所有的概率潜在语义分析都是这样生成文章的,表现的形式就是文档-单词矩阵。所以可以把已有的文档-单词矩阵当作训练集来训练参数。 在一般的情况之下话题个数K都是给定的,实际上是通过实践来选定的。两个迪利克雷分布的超参数X和Y都是给定的。在没有先验知识的情况下X,Y都被赋值为1。这样可以看作吧它们两个“一视同仁”并且LDA主题模型可以使用一个联合分布来表示: 这个式子就是给定了超参数X,Y的情况下LDA主题模型生成所有的给定的文档-单词矩阵的概率。
四 LDA主题模型的学习方法
①吉布斯采样 ②变分EM算法
五 LDA主题模型输出以及应用
(1)输出:除了推断出这些主题,LDA还可以推断每篇文章在主题上的分布。例如,X文章大概有60%在讨论“空间探索”,30%关于“电脑”,10%关于其他主题。 (2)这些主题分布可以有多种用途: ①聚类: 主题是聚类中心,文章和多个类簇(主题)关联。聚类对整理和总结文章集合很有帮助。 ②特征生成:LDA可以生成特征供其他机器学习算法使用。如前所述,LDA为每一篇文章推断一个主题分布;K个主题即是K个数值特征。这些特征可以被用在像逻辑回归或者决策树这样的算法中用于预测任务。(重点,可以用于数据预处理) ③降维:每篇文章在主题上的分布提供了一个文章的简洁总结。在这个降维了的特征空间中进行文章比较,比在原始的词汇的特征空间中更有意义。
|