数据挖掘(一)主题模型(Topic Modeling)
1. 主题建模的目的
从文档集合中自动地找出一系列的主题(topics),每个文档集内可能有多个主题;
主题:由众多词汇的概率分布(distribution)组成;
常用模型:LDA, pLSA, pLSI等,是一种无监督的学习过程;
Input: An unorganized collection of documents;
Output: An organized collection of topics;
在生活中,完成文档的过程是:首先确定这篇文章的中心思想(topic),然后根据topics,产生一个个词语(words),最终形成文档。主题模型的过程与之相反,通过文档形成词袋,再由词袋生成topic。下图显示的是一个主题模型的简单示例,输入为两个文档,输出为5个topic,每个topic分别由多个词组成;

2. 预备数学知识

2.1 Bernoulli distribution
伯努利分布:当N=1时的二项分布的特殊情况;

2.2 Binomial distribution
二项分布:类似于多次抛掷硬币;

2.3 Categorical distribution
分类分布:抛掷一次多面骰子,p1+p2+p3+......+pn=1p_1+p_2+p_3+......+p_n = 1p1+p2+p3+......+pn=1

p(x)=[x=1]p1+[x=2]p2+[x=3]p3+......+[x=6]p6p(x)=[x=1]p_1+[x=2]p_2+[x=3]p_3+......+[x=6]p_6p(x)=[x=1]p1+[x=2]p2+[x=3]p3+......+[x=6]p6

本文介绍了主题建模的目的,预备数学知识包括伯努利、二项、分类、多项式分布以及吉布斯采样。重点探讨了LSA和LDA模型,阐述了它们在文档分析中的应用。
2642

被折叠的 条评论
为什么被折叠?



