上篇文章《知识蒸馏在广告系统中的应用(一)》主要和大家聊的是一些基本的背景,今天我们将重点看看在实战中知识蒸馏是如何在广告系统的各个阶段发挥作用的。
1.在召回/粗排阶段使用知识蒸馏
在上一篇文章中我们也谈到,召回和粗排阶段的主要任务是在保证一定精确性的前提下,对广告进行粗筛,缓解精排的压力。需要在准确性和速度方面找到一个平衡点,所以,在这两个阶段,我们并不需要追求最高的精度,就算模型的效果和精排有一定的差距,也是完全可以接受的。毕竟在这两个阶段,如果准确性不足还是可以通过返回物品的数量多来弥补的。而模型小速度快则是这两个阶段的重要目标之一。这就刚好和知识蒸馏本身的特点相一致,所以在这里使用知识蒸馏应该是再好不过的了。

那么,召回或者粗排怎么要怎么“蒸馏”呢?如上图所示,我们采用复杂的精排模型作为Teacher,召回或粗排模型作为小的Student,比如双塔DNN模型等,Student模型去拟合精排环节的排序结果,以此来指导召回或粗排Student模型的优化过程。这样,我们可以获得满足如下特性的召回或者粗排模型:
(1) 首先,精度好,因为Student经过复杂精排模型的知识蒸馏,效果可以非常接近于精排模型效果。
(2) 其次,Student模型结构简单,所以速度快,满足召回、粗排阶段对于速度的要求。
(3)最后,通过Student模型模拟精排模型的排序结果,可以使得召回、粗排这两个阶段的优化目标和精排环节的优化目标保持一致,即与广告系统的最终优化目标保持一致。
在广告系统中,召回、粗排阶段的优化目标保持和精排优化目标一致,其实是很重要的,但是这点往往在实际中容易被忽略,或者因为条件所限无法考虑这一因素,比如非模型召回

本文探讨了知识蒸馏技术在广告系统的召回、粗排及精排阶段的应用。在召回/粗排阶段,通过知识蒸馏可以训练出既快速又具有较高准确性的模型;在精排阶段,则能有效平衡推荐精度与在线服务响应速度。
2110

被折叠的 条评论
为什么被折叠?



