泰迪智能科技(数据挖掘平台:TipDM数据挖掘平台)最新推出的数据挖掘实战专栏
专栏将数据挖掘理论与项目案例实践相结合,可以让大家获得真实的数据挖掘学习与实践环境,更快、更好的学习数据挖掘知识与积累职业经验
专栏中每四篇文章为一个完整的数据挖掘案例。案例介绍顺序为:先由数据案例背景提出挖掘目标,再阐述分析方法与过程,最后完成模型构建,在介绍建模过程中同时穿插操作训练,把相关的知识点嵌入相应的操作过程中。
为方便读者轻松地获取一个真实的实验环境,本专栏使用大家熟知的Python语言对样本数据进行处理以进行挖掘建模。
————————————————
使用LDA模型进行主题分析
1、了解LDA主题模型
(1)主题模型介绍
主题模型在自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF(词频)、TF-IDF(词频-逆向文档频率)等,这种方法没有考虑到文字背后的语义关联,例如在两个文档共同出现的单词很少甚至没有,但两个文档是相似的,因此在判断文档相似性时,需要使用主题模型进行语义分析并判断文档相似性。
如果一篇文档有多个主题,则一些特定的可代表不同主题的词语会反复的出现,此时,运用主题模型,能够发现文本中使用词语的规律,并且把规律相似的文本联系到一起,以寻求非结构化的文本集中的有用信息。例如热水器的商品评论文本数据,代表热水器特征的词语如“安装”“出水量”“服务”等会频繁地出现在评论中,运用主题模型,把热水器代表性特征相关的情感描述性词语与应的特征词语联系起来,从而深入了解用户对热水器的关注点及用户对于某一特征的情感倾向。
(2)LDA主题模型
潜在狄利克雷分配,即LDA模型(Latent Dirichlet Allocation,LDA)是由Blei等人在2003年提出的生成式主题模型⑱。生成模型,即认为每一篇文档的每一个词都是通过“一定的概率选择了某个主题,并从这个主题中以一定的概率选择了某个词语”。LDA模型也被称为三层贝叶斯概率模型,包含文档(d)、主题(z)、词(w)三层结构,能够有效对文本进行建模,和传统的空间向量模型(VSM)相比,增加了概率的信息。通过LDA主题模型,能够挖掘数据集中的潜在主题,进而分析数据集的集中关注点及其相关特征词。
LDA模型采用词袋模型(Bag Of Words,BOW)将每一篇文档视为一个词频向量,从而将文本信息转化为易于建模的数字信息。
定义词表大小为L,一个L维向量(1,0,0,...,0,0)表示一个词。由N个词构成的评论记为。假设某一商品的评论集D由M篇评论构成,记为。M篇评论分布着K个主题,记为。记a和b为狄利克雷函数的先验参数,q为主题在文档中的多项分布的参数,其服从超参数为a的Dirichlet先验分布,f为词在主题中的多项分布的参数,其服从超参数b的Dirichlet先验分布。LDA模型图如图1所示。

图1 LDA模型结构示意图
LDA模型假定每篇评论由各个主题按一定比例随机混合而成,混合比例服从多项分布,记为式(1)。

2万+

被折叠的 条评论
为什么被折叠?



