统计学习方法—概率潜在语义分析
概率潜在语义分析
概率潜在语义分析(probabilistic latent semantic analysis, PLSI),是一种利用概率生成模型对文本集合进行话题分析的无监督学习方法。模型的最大特点使用隐变量表示话题;整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程;假设每个文本由一个话题分布决定,每个话题由一个单词分布决定。
概率潜在语义分析模型
在前述的单词-文本矩阵的基础下,文本数据基于如下的概率模型产生(共现模型):首先有话题的概率分布,然后有话题给定条件下文本的条件概率分布,以及话题给定条件下单词的条件概率分布。
概率潜在语义分析就是发现由隐变量表示的话题,即潜在语义。
生成模型
- 简单例子:
假设有:
单词集合 W = { w 1 , w 2 , ⋯ , w M } W=\{w_1, w_2,\cdots, w_M\} W={ w1,w2,⋯,wM};
文本集合 D = { d 1 , d 2 , ⋯ , d N } D=\{d_1,d_2,\cdots,d_N\} D={ d1,d2,⋯,dN

概率潜在语义分析(PLSI)是一种无监督学习方法,用于文本话题分析。它通过概率生成模型揭示单词-文本的潜在话题结构。在生成模型中,文本由话题决定,话题由单词决定,而共现模型则描述了单词和文本的对称关系。PLSI的学习通常借助EM算法来估计模型参数。
3509

被折叠的 条评论
为什么被折叠?



