在文本挖掘和主题建模领域,传统的pLSA(Probabilistic Latent Semantic Analysis)和LDA模型假设文档独立同分布,但现实中文档往往存在内在关联(如引用关系、相似内容或社交网络)。为了利用这些文档间的流形结构,研究者提出了Laplacian Probabilistic Latent Semantic Indexing(LapPLSI),它在标准pLSA目标上加入文档流形正则项,使相似的文档倾向于拥有相似的主题分布。今天我们来深入剖析一个高效的MATLAB实现——LapPLSI函数,它结合广义EM算法和图拉普拉斯正则化,实现了稳定的主题学习。
LapPLSI的核心思想
LapPLSI的目标函数为:
[
\mathcal{L} = \log P(\mathbf{X}) - \lambda \cdot \text{Tr}(\mathbf{P}{z|d}^T L \mathbf{P}{z|d})
]
其中:
第一项是标准pLSA的对数似然
第二项是流形正则项,L为图拉普拉斯矩阵(L = D - W),W为文档相似性矩阵
λ控制正则强度
Pz_d 表示主题在文档上的后验分布 P(z|d)
通过这个正则项,靠近图上的文档会被鼓励拥有相近的主题分布,从而更好地捕捉文档集合的局部几何结构。
函数输入输出概览
函数签名: