数据挖掘（一）主题模型（Topic Modeling）

最新推荐文章于 2026-07-02 14:18:36 发布

原创

最新推荐文章于 2026-07-02 14:18:36 发布 · 1.3w 阅读

·

4

·

本文介绍了主题建模的目的，预备数学知识包括伯努利、二项、分类、多项式分布以及吉布斯采样。重点探讨了LSA和LDA模型，阐述了它们在文档分析中的应用。

数据挖掘（一）主题模型（Topic Modeling）

1. 主题建模的目的

从文档集合中自动地找出一系列的主题（topics），每个文档集内可能有多个主题；

主题：由众多词汇的概率分布（distribution）组成；

常用模型：LDA, pLSA， pLSI等，是一种无监督的学习过程；

Input： An unorganized collection of documents;
Output: An organized collection of topics;

在生活中，完成文档的过程是：首先确定这篇文章的中心思想（topic），然后根据topics，产生一个个词语（words），最终形成文档。主题模型的过程与之相反，通过文档形成词袋，再由词袋生成topic。下图显示的是一个主题模型的简单示例，输入为两个文档，输出为5个topic，每个topic分别由多个词组成；

在这里插入图片描述

2. 预备数学知识

在这里插入图片描述

2.1 Bernoulli distribution

伯努利分布：当N=1时的二项分布的特殊情况；
在这里插入图片描述

2.2 Binomial distribution

二项分布：类似于多次抛掷硬币；

在这里插入图片描述

2.3 Categorical distribution

分类分布：抛掷一次多面骰子， $p_1+p_2+p_3+......+p_n = 1$
在这里插入图片描述
$p(x)=[x=1]p_1+[x=2]p_2+[x=3]p_3+......+[x=6]p_6$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。