决策理论与模型选择详解
1. PR曲线与F分数
1.1 PR曲线
精度(Precision)可以表示为:
[Prec = \frac{TP}{TP + FP} = \frac{P \cdot TPR}{P \cdot TPR + N \cdot FPR} = \frac{TPR}{TPR + \frac{1}{r}FPR}]
当(\pi \to 1)且(r \to \infty)时,(Prec \to 1);当(\pi \to 0)且(r \to 0)时,(Prec \to 0)。例如,从平衡问题((r = 0.5))转变为不平衡问题((r = 0.1),正样本更罕见)时,每个阈值下的精度会下降,而召回率(即TPR)保持不变,因此整体的PR曲线会下移。所以,当处理具有不同患病率的多个二分类问题时,在平均精度时需要谨慎。
1.2 F分数
F分数也受类别不平衡的影响,可重写为:
[\frac{1}{F_{\beta}} = \frac{1}{1 + \beta^2} \frac{1}{P} + \frac{\beta^2}{1 + \beta^2} \frac{1}{R}]
[ = \frac{1}{1 + \beta^2} \frac{TPR + \frac{N}{P}FPR}{TPR} + \frac{\beta^2}{1 + \beta^2} \frac{1}{TPR}]
[F_{\beta} = \frac{(1 + \beta^2)TPR}{TPR + \frac{1}{r}FPR + \beta^2}]
超级会员免费看
订阅专栏 解锁全文
1875

被折叠的 条评论
为什么被折叠?



