词权重 (term weight)方案总结

最新推荐文章于 2026-06-24 10:22:33 发布

原创

最新推荐文章于 2026-06-24 10:22:33 发布 · 置顶 · 6.7k 阅读

1 无监督 (unsupervised) 方法

1.1 统计方法（TF, TF-IDF, YAKE)

详情可以参考我之前的博文：TF, TFIDF, YAKE

1.2 图方法 (TextRank, SingleRank, TopicRank, PositionRank)

详情可以参考我之前的博文：TextRank, SingleRank, TopicRank, PositionRank

2 有监督 (supervised ) 统计方法

2.1 Delta TF-IDF

Delta TF-IDF针对文本分类，通过计算单词在正负语料的TF-IDF得分差异来衡量一个词的重要性，核心思想是提高在正负样本之间分布不均匀的词的重要性，分布不均匀的词具有更高的区分度，term $t$ 在文本 $d$ 的分值计算如下：
$V_{t,d} = TF(t, d) \times log_2(\frac{|P|}{P_t}) - TF(t, d) \times log_2(\frac{|N|}{N_t})$
$\times log_2(\frac{|P|}{P_t}\frac{N_t}{|N|})$
其中 $T F (t, d)$ 表示的是 term $t$ 在文本 $d$ 的词频率，一般计算公式是用文本包含term $t$ 的词频除以文本的总词频，得到该词的频率分值， $∣ P ∣$ 表示的是正样本文档数量， $P_t$ 表示的在正样本文档中包含 term $t$ 的文档数，而 $∣ N ∣$ 表示的是负样本文档数量， $N_t$ 表示的是在负样本文档中包含 term $t$ 的文档数。

2.2 TF-IDF-ICF

TF-IDF-ICF是在TF-IDF基础上，利用label信息进行有监督的对term进行权重学习，通过增加Inverse Class Frequency (ICF)因子，让那些在少量文本( IDF) 出现以及少量类别 (ICF)出现的term给与更高的权重分值。其中term $t$ 在文本 $d$ 中的权重计算公式如下：
$V_{t,d} = TF(t,d) \times IDF(t) \times (1 + log ( \frac{M}{CF(t)}))$

$T F (t, d)$ 表示term $t$ 在文本 $d$ 中的词频， $IDF(t)=log_2(\frac{D}{D_t})$ 表示倒文本频率。 $M$ 表示的是类别的数量， $C F (t)$ 表示的是term $t$ 在所有类别 $M$ 个中出现的次数。从上面公式可以看出，相比TF-IDF，TF-IDF-ICF对那些在类别中出现较少的词提高了权重，因为该词在所有类别中出现频率较少，则相对更有区分度。

2.3 TF-RF

TF-RF (Term Frequency-Relevance Frequency) 和 Delta TF-IDF思想类似，将term在正样本和负样本的分布考虑进去，但是仅仅考虑包含该term的文本，分值计算如下：

$V_{t,d} = TF(t, d) \times log_2(2 + \frac{P_t}{max(1, N_t)} )$
其中 $P_t$ 表示的是包含term $t$ 的正样本数量， $N_t$ 表示的是包含term $t$ 的负样本数量。论文指出，不包含term $t$ 的文本特别多，将这些文本考虑进来，会影响term $t$ 在正负样本中的分布情况，所以只用了相对的频率分布，其中公式中常数值起到平滑作用。

2.4 TF-IGM

TF-IGM ( Term Frequency-Inverse Gravity Moment) 用来衡量term在类别之间的不均匀度，进而可以反映term在类别的区分度。首先我们来看下IGM的公式：
$(\frac{f_{t1}}{\sum_{r=1}^Mf_{tr} \times r})$
其中 $f_{tr} (r=1,2,...,M)$ 表示的是term $t$ 在第