| |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| -> 人工智能 -> 文本建模PLSA与LDA模型 -> 正文阅读 |
|
|
[人工智能]文本建模PLSA与LDA模型 |
文本建模PLSA与LDA模型 – 潘登同学的Machine Learning笔记文章目录文本生成过程一篇文档,可以看成是一组有序的词的序列 d = ( w 1 , w 2 , … , w n ) d=(w_1,w_2,\ldots,w_n) d=(w1?,w2?,…,wn?) . 从统计学角度来看,文档的生成可以看成是上帝抛掷骰子生成的结果,每一次抛掷骰子都生成一个词汇,抛掷N词生成一篇文档。在统计文本建模中,我们希望猜测出上帝是如何玩这个游戏的,这会涉及到两个最核心的问题:
第一个问题就是表示模型中都有哪些参数,骰子的每一个面的概率都对应于模型中的参数;第二个问题就表示游戏规则是什么,上帝可能有各种不同类型的骰子,上帝可以按照一定的规则抛掷这些骰子从而产生词序列。 Unigram Model在Unigram Model中,我们采用词袋模型,假设了文档之间相互独立,文档中的词汇之间相互独立。假设我们的词典中一共有 V 个词 v 1 , v 2 , … , v V v_1,v_2,\ldots,v_V v1?,v2?,…,vV? ,那么最简单的 Unigram Model 就是认为上帝是按照如下的游戏规则产生文本的。
n-gram model对于n-gram model来说就是Unigram Model加了一个假设,假设当前词会受前n个词的影响,于是就用条件概率来生成词,那么n-gram model就是认为上帝是按照如下的游戏规则产生文本的。
PLSA模型(Probabilistic latent semantic analysis)Unigram Model模型中,没有考虑主题词这个概念。我们人写文章时,写的文章都是关于某一个主题的,不是满天胡乱的写,比如一个财经记者写一篇报道,那么这篇文章大部分都是关于财经主题的,当然,也有很少一部分词汇会涉及到其他主题。所以,PLSA认为生成一篇文档的生成过程如下:
LDA 模型生成文档步骤
下图可以加深对上面的理解
为什么要选择这些分布为什么选择狄利克雷(Dirichlet)分布作为先验分布,因为待估计的总体分布是多项分布,将先验分布选择为狄利克雷(Dirichlet)分布,那么后验分布也就是狄利克雷(Dirichlet)分布,在做极大似然时候就方便计算;这里的重要概念是共轭先验分布; 共轭先验分布在数量统计里面讲过,对于一个共轭先验分布用简单的数学表达就是 下图通过概率图的形式描述了这一过程
其中 θ ? m 与 ? ? k \vec{\theta}_m与\vec{\phi}_k θm?与??k?是模型去估计总体的参数,而 α ? 与 β ? \vec{\alpha}与\vec{\beta} α与β?是这些待估参数的先验分布,通过最大后验概率来估计总体参数… Python实现文本预处理-分词
LDA分析
结果展现
主题数目选择–困惑度主题数目肯定是越多越好,但是越多就说明泛化能力不强,所以根据elbow原则选择主题数目
源码请移步至我的github中获取,因为代码实现难免会有bug,github中记录了常见的bug及解决方案… |
|
|
|
|
| 上一篇文章 下一篇文章 查看所有文章 |
|
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
| 360图书馆 购物 三丰科技 阅读网 日历 万年历 2025年11日历 | -2025/11/27 4:33:50- |
|
| 网站联系: qq:121756557 email:121756557@qq.com IT数码 |