查准率与查全率
在机器学习领域,有两个常用的指标:查准率与查全率。
它们分别代表什么含义呢?让我们以一个例子来说明。
假设有400人申请贷款,已知其中有160人是好人。我们建立一个模型进行训练,训练的结果是把100个人识别成了好人。但是,实际上,这些人中间只有80人是真正的好人,另外20人是漏网之鱼。
其中,查准率(precision)=检出相关信息量/检出信息总量=80/100=80%
查全率(recall)=检出相关信息量/系统中的相关信息总量=80/160=50%
由此看来,查准率与查全率是一对相互矛盾的概念。
通常,要提高查准率,就要把标准定得严格一些,那么,就会有更多的人被识别为“坏人”,只有少数特别好的人才会被认为是“好人”。
这样,检出的好人数量一定会减少,那么在全部好人中的占比就会下降,也就直接导致查全率降低。
如果反过来,把标准定得低一些,虽然有更多的好人被识别为“好人”,查全率显著升高,可是也会有更多的坏人被误判为“好人”,导致查准率下降。
通过率和坏账率
在金融风控领域,有两个指标是与查准率和查全率相对的,即通过率和坏账率。它们表达的意思一致,但是具体含义不同。
坏账率指的是在被判断为好人的人群中,坏人所占的比例。即:
坏账率=年坏账率/年赊销总额=20/100=20%
因此,查准率=1 - 坏账率
这两个指标可以从正反两个方面来考察同一个含义。
通过率指的是在模型中被判断为好人的人占人群总数的比例,即:
通过率=100/400=25%。
为什么业内很少用查全率,而是常用通过率这个概念呢?
这是因为,在真实业务中,我们拒绝的那一部分申请人中,具体有多少是好人,我们是不清楚的,所以我们无法计算查全率。由于训练模型时使用的数据结果是已知的,因此我们可以在模型训练时使用。
通过率则可以直接度量、简单易算。从表达的含义上讲,通过率与查全

本文探讨了金融风控中查准率与查全率的概念,解释了通过率和坏账率的关系。在实际业务中,由于无法准确计算查全率,通过率成为重要的衡量指标。金融公司面临在提高通过率以增加成交量和控制坏账率以降低风险之间的博弈,寻求二者之间的平衡。
1599

被折叠的 条评论
为什么被折叠?



