一、新闻文本集
其中
通过TF-IDF排序 中的词(由大到小),选择其中的 t 个词作为关键字,
,
是对应关键字的TF-IDF值。
二、神经网络语言模型
输入:该词的上下文中相邻的几个词向量(词袋模型)
输出:p(wi | context) ,该词的词向量。
通过神经网络语言模型,可以得到新闻词集合 W 中每个词 的词向量
本文介绍了一种基于神经网络语言模型的中文新闻文本聚类算法。首先,通过TF-IDF选择关键字;然后,利用神经网络语言模型获取词向量;接着,采用模糊K-means对关键字进行聚类;再根据关键字聚类结果对新闻文本进行聚类;最后,通过准确率、召回率和F-measure评估模型性能。相较于传统LDA算法,该方法在运行效率和类别代表性上有所提升。
一、新闻文本集
其中
通过TF-IDF排序 中的词(由大到小),选择其中的 t 个词作为关键字,
,
是对应关键字的TF-IDF值。
二、神经网络语言模型
输入:该词的上下文中相邻的几个词向量(词袋模型)
输出:p(wi | context) ,该词的词向量。
通过神经网络语言模型,可以得到新闻词集合 W 中每个词 的词向量
1245
4726
5564
715

被折叠的 条评论
为什么被折叠?