书名:推荐系统实践 作者:项亮
链接:微信读书链接
目录
1.推荐系统实验方法
1.1三种评测推荐效果的实验方法
1.1.1离线实验
离线实验的方法一般由如下几个步骤构成:
(1) 通过日志系统获得用户行为数据,并按照一定格式生成一个标准的数据集;
(2) 将数据集按照一定的规则分成训练集和测试集;
(3) 在训练集上训练用户兴趣模型,在测试集上进行预测;
(4) 通过事先定义的离线指标评测算法在测试集上的预测结果。

1.1.2用户调查
用户调查的优缺点也很明显。
优点是可以获得很多体现用户主观感受的指标,相对在线实验风险很低,出现错误后很容易弥补。
缺点是招募测试用户代价较大,很难组织大规模的测试用户,因此会使测试结果的统计意义不足。
此外,在很多时候设计双盲实验非常困难,而且用户在测试环境下的行为和真实环境下的行为可能有所不同,因而在测试环境下收集的测试指标可能在真实环境下无法重现。
1.1.3在线实验
在完成离线实验和必要的用户调查后,可以将推荐系统上线做AB测试,将它和旧的算法进行比较。
AB测试的优点是可以公平获得不同算法实际在线时的性能指标,包括商业上关注的指标。AB测试的缺点主要是周期比较长,必须进行长期的实验才能得到可靠的结果。因此一般不会用AB测试测试所有的算法,而只是用它测试那些在离线实验和用户调查中表现很好的算法。
以下是AB测试的流程图

一般来说,一个新的推荐算法最终上线,需要完成上面所说的3个实验。
- 首先,需要通过离线实验证明它在很多离线指标上优于现有的算法。
- 然后,需要通过用户调查确定它的用户满意度不低于现有的算法。
- 最后,通过在线的AB测试确定它在我们关心的指标上优于现有的算法。
1.2评测指标
1.2.1用户满意度
用户满意度没有办法离线计算,只能通过用户调查或者在线实验获得。
1.2.2预测准确度指标
由于离线的推荐算法有不同的研究方向,因此下面将针对不同的研究方向介绍它们的预测准确度指标。
1.2.2.1评分预测

评分预测的预测准确度一般通过均方根误差(RMSE)和平均绝对误差(MAE)计算。对于测试集中的一个用户u和物品i,令 r u i r_{ui} rui 是用户u对物品i的实际评分,而 r ^ u i \hat{r}_{ui} r^ui是推荐算法给出的预测评分,那么RMSE的定义为: R M S E = ∑ u , i ∈ T ∣ r u i − r ^ u i ∣ ∣ T ∣ RMSE=\sqrt{\frac {\sum_{u,i\in{T}}|r_{ui}-\hat{r}_{ui}|}{|T|}} RMSE=∣T∣∑

849

被折叠的 条评论
为什么被折叠?



