word2vec中:上下文向量是枢轴词语的词向量 LDA中:上下文向量是文档向量 LDA2vec中:上下文向量=词向量+文档向量
- 区分语料中随机抽取的词语和负采样词语的损失函数:
当损失函数最小的时候能够把语料中的词语与负采样词语区分开。
其中cj代表上下文向量(context vectors),wj代表词向量,dj代表文档向量。这里是把词向量与文档向量相加作为上下文向量的初始值。
这里是文档向量的表示方法,aji是文档向量中每个主题的权重,t0是整个语料中每个主题的主题向量,t0和wj是同维向量。我们可以通过计算词向量与该主题的相似程度从而得到可以表示该主题的相关词汇,相似程度=t0*wj。 文档向量中的权重会根据每个文档变化,但是主题不会发生变化,整个语料中的主题是固定的。
-
- 狄利克雷抽样
为了能让权重像稀疏的狄利克雷分布,lda2vec没有从狄利克雷分布中抽样,而是选择优化狄利克雷函数,使潜在的主题向量尽量稀疏,使文档权重有意义。使主题向量更好描述,并且产生连贯的词语。 -
- 最终的目标函数:
-
- 正则化协方差**(可以改进的地方)**
lda2vec没有从狄利克雷分布中抽样,而是优化狄利克雷函数。这种做法可以对相同主题进行处理。处理方法如下: (1)正则化协方差 (2)penalize the determinant of the topic covariance matrix.协方差矩阵可以计算主题向量i和主题向量j的相关度。determinant能够penalize协方差矩阵的复杂度。所以能够在正则化公式中添加一个损失函数: 参考文献:https://multithreaded.stitchfix.com/blog/2016/05/27/lda2vec/#topic=38&lambda=1&term=
|