词权重 (term weight)方案总结

1 无监督 (unsupervised) 方法

1.1 统计方法(TF, TF-IDF, YAKE)

详情可以参考我之前的博文:TF, TFIDF, YAKE

1.2 图方法 (TextRank, SingleRank, TopicRank, PositionRank)

详情可以参考我之前的博文:TextRank, SingleRank, TopicRank, PositionRank

2 有监督 (supervised ) 统计方法

2.1 Delta TF-IDF

Delta TF-IDF针对文本分类,通过计算单词在正负语料的TF-IDF得分差异来衡量一个词的重要性,核心思想是提高在正负样本之间分布不均匀的词的重要性,分布不均匀的词具有更高的区分度,term t t t在文本 d d d的分值计算如下:
V t , d = T F ( t , d ) × l o g 2 ( ∣ P ∣ P t ) − T F ( t , d ) × l o g 2 ( ∣ N ∣ N t ) V_{t,d} = TF(t, d) \times log_2(\frac{|P|}{P_t}) - TF(t, d) \times log_2(\frac{|N|}{N_t}) Vt,d=TF(t,d)×log2(PtP)TF(t,d)×log2(NtN)
= T F ( t , d ) × l o g 2 ( ∣ P ∣ P t N t ∣ N ∣ ) =TF(t, d) \times log_2(\frac{|P|}{P_t}\frac{N_t}{|N|}) =TF(t,d)×log2(PtPNNt)
其中 T F ( t , d ) TF(t,d) TF(t,d)表示的是 term t t t在文本 d d d的词频率,一般计算公式是用文本包含term t t t的词频除以文本的总词频,得到该词的频率分值, ∣ P ∣ |P| P表示的是正样本文档数量, P t P_t Pt表示的在正样本文档中包含 term t t t的文档数,而 ∣ N ∣ |N| N表示的是负样本文档数量, N t N_t Nt表示的是在负样本文档中包含 term t t t的文档数。

2.2 TF-IDF-ICF

TF-IDF-ICF是在TF-IDF基础上,利用label信息进行有监督的对term进行权重学习,通过增加Inverse Class Frequency (ICF)因子,让那些在少量文本( IDF) 出现以及少量类别 (ICF)出现的term给与更高的权重分值。其中term t t t在文本 d d d中的权重计算公式如下:
V t , d = T F ( t , d ) × I D F ( t ) × ( 1 + l o g ( M C F ( t ) ) ) V_{t,d} = TF(t,d) \times IDF(t) \times (1 + log ( \frac{M}{CF(t)})) Vt,d=TF(t,d)×IDF(t)×(1+log(CF(t)M))

T F ( t , d ) TF(t,d) TF(t,d)表示term t t t在文本 d d d中的词频, I D F ( t ) = l o g 2 ( D D t ) IDF(t)=log_2(\frac{D}{D_t}) IDF(t)=log2(DtD)表示倒文本频率。 M M M表示的是类别的数量, C F ( t ) CF(t) CF(t)表示的是term t t t在所有类别 M M M个中出现的次数。从上面公式可以看出,相比TF-IDF,TF-IDF-ICF对那些在类别中出现较少的词提高了权重,因为该词在所有类别中出现频率较少,则相对更有区分度

2.3 TF-RF

TF-RF (Term Frequency-Relevance Frequency) 和 Delta TF-IDF思想类似,将term在正样本和负样本的分布考虑进去,但是仅仅考虑包含该term的文本,分值计算如下:

V t , d = T F ( t , d ) × l o g 2 ( 2 + P t m a x ( 1 , N t ) ) V_{t,d} = TF(t, d) \times log_2(2 + \frac{P_t}{max(1, N_t)} ) Vt,d=TF(t,d)×log2(2+max(1,Nt)Pt)
其中 P t P_t Pt表示的是包含term t t t的正样本数量, N t N_t Nt表示的是包含term t t t的负样本数量。论文指出,不包含term t t t的文本特别多,将这些文本考虑进来,会影响term t t t在正负样本中的分布情况,所以只用了相对的频率分布,其中公式中常数值起到平滑作用。

2.4 TF-IGM

TF-IGM ( Term Frequency-Inverse Gravity Moment) 用来衡量term在类别之间的不均匀度,进而可以反映term在类别的区分度。首先我们来看下IGM的公式:
I G M ( t ) = ( f t 1 ∑ r = 1 M f t r × r ) IGM(t) = (\frac{f_{t1}}{\sum_{r=1}^Mf_{tr} \times r}) IGM(t)=(r=1Mftr×rft1)
其中 f t r ( r = 1 , 2 , . . . , M ) f_{tr} (r=1,2,...,M) ftr(r=1,2,...,M)表示的是term t t t在第 r r

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值