推荐系统（1）：推荐系统评测

原创

已于 2024-11-25 17:46:35 修改 · 2.4k 阅读

于 2024-11-25 17:41:57 首次发布

书名：推荐系统实践作者：项亮
链接：微信读书链接

1.推荐系统实验方法

1.1三种评测推荐效果的实验方法

1.1.1离线实验

离线实验的方法一般由如下几个步骤构成：
(1) 通过日志系统获得用户行为数据，并按照一定格式生成一个标准的数据集；
(2) 将数据集按照一定的规则分成训练集和测试集；
(3) 在训练集上训练用户兴趣模型，在测试集上进行预测；
(4) 通过事先定义的离线指标评测算法在测试集上的预测结果。
在这里插入图片描述

1.1.2用户调查

用户调查的优缺点也很明显。
优点是可以获得很多体现用户主观感受的指标，相对在线实验风险很低，出现错误后很容易弥补。
缺点是招募测试用户代价较大，很难组织大规模的测试用户，因此会使测试结果的统计意义不足。
此外，在很多时候设计双盲实验非常困难，而且用户在测试环境下的行为和真实环境下的行为可能有所不同，因而在测试环境下收集的测试指标可能在真实环境下无法重现。

1.1.3在线实验

在完成离线实验和必要的用户调查后，可以将推荐系统上线做AB测试，将它和旧的算法进行比较。
AB测试的优点是可以公平获得不同算法实际在线时的性能指标，包括商业上关注的指标。AB测试的缺点主要是周期比较长，必须进行长期的实验才能得到可靠的结果。因此一般不会用AB测试测试所有的算法，而只是用它测试那些在离线实验和用户调查中表现很好的算法。
以下是AB测试的流程图
在这里插入图片描述
一般来说，一个新的推荐算法最终上线，需要完成上面所说的3个实验。

首先，需要通过离线实验证明它在很多离线指标上优于现有的算法。
然后，需要通过用户调查确定它的用户满意度不低于现有的算法。
最后，通过在线的AB测试确定它在我们关心的指标上优于现有的算法。

1.2评测指标

1.2.1用户满意度

用户满意度没有办法离线计算，只能通过用户调查或者在线实验获得。

1.2.2预测准确度指标

由于离线的推荐算法有不同的研究方向，因此下面将针对不同的研究方向介绍它们的预测准确度指标。

1.2.2.1评分预测

在这里插入图片描述
评分预测的预测准确度一般通过均方根误差（RMSE）和平均绝对误差（MAE）计算。对于测试集中的一个用户u和物品i，令 $r_{ui}$ 是用户u对物品i的实际评分，而 $\hat{r}_{ui}$ 是推荐算法给出的预测评分，那么RMSE的定义为： $RMSE=\sqrt{\frac {\sum_{u,i\in{T}}|r_{ui}-\hat{r}_{ui}|}{|T|}}$