自然语言处理（NLP）[文本挖掘算法]：TF-IDF分析

最新推荐文章于 2026-03-19 00:03:40 发布

原创

最新推荐文章于 2026-03-19 00:03:40 发布 · 2.9k 阅读

标签

自然语言处理（NLP）中有一块很重要的部分就是文本挖掘，文本自然语言的一种展现形式，也是目前海量数据的主流展现方式。现在google和百度也会采用主流的分词算法TF-IDF进行文本拆分，当然这是主要的算法之一，不是只是用这一种。下面我给大家简单介绍一下TF-IDF算法：

定义

在信息检索中，TF-IDF（词频-逆文档频率）是一种统计方法，用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。TF-IDF的值会随着单词在文档中出现的次数的增加而增大，也会随着单词在语料库中出现的次数的增多而减小。TF-IDF是如今最流行的词频加权方案之一。

TF-IDF的各种改进版本经常被搜索引擎用作在给定用户查询时对文档的相关性进行评分和排序的主要工具。TF-IDF可以成功地用于各种主题字段的停用词过滤，包括文本摘要和分类。

原理

TF-IDF实际上是：TF * IDF。主要思想是：如果某个词或短语在一篇文章中出现的频率高（即TF高），并且在其他文章中很少出现（即IDF高），则认为此词或者短语具有很好的类别区分能力，适合用来分类。

通俗理解TF-IDF就是：TF刻画了词语t对某篇文档的重要性，IDF刻画了词语t对整个文档集的重要性。

TF（Term Frequency，词频）

TF（Term Frequency，词频）表示一个给定词语t在一篇给定文档d中出现的频率。TF越高，则词语t对文档d来说越重要，TF越低，则词语t对文档d来说越不重要。那是否可以以TF作为文本相似度评价标准呢？答案是不行的，举个例子，常用的中文词语如“我”，“了”，“是”等，在给定的一篇中文文档中出现的频率是很高的，但这些中文词几乎在每篇文档中都具有非常高的词频，如果以TF作为文本相似度评价标准，那么几乎每篇文档都能被命中。

对于在某一文档 dj 里的词语 ti 来说，ti 的词频可表示为：