用户活跃度标签建模

根据用户近3个月的登录、发帖和更新贴行为,利用聚类算法评估活跃度。采用Kmeans,结合信息熵和冷却定律处理时间权重,选取最佳K值,评估指标包括轮廓系数和类别活跃度占比。

应用场景

期望根据客户近3个月的登录行为和发帖更新贴行为,评估客户的活跃度,将活跃度分为多个等级,以根据不同的活跃等级开展不同的营销活动。

基本思路

1、采用聚类算法,特征值取最近3个月每周(一周取7天)登录次数,每周发帖次数,每周更新贴次数,按周展开列,共12周*3=36个特征值,对每个特征值按照时间周期做降权处理。

借鉴牛顿温度冷却定律:

本期温度=上期温度 * exp(-(冷却系数)*间隔的周期数)

特征值考虑时间周期作降权处理。假设,第12周的一次登录,在今日的权重变为0.05(暂定),则,冷却系数 = - log(0.05) / 12 约等于 0.24。假设一个客户在12周内的登录次数依次为:1,2,3,4,5,6,7,8,9,10,11,12,那么计算这个客户的登录次数总得分为:
S=12e−0.24∗0+11e−0.24∗1+10e−0.24∗2+9e−0.24∗3+8e−0.24∗4+7e−0.24∗5+6e−0.24∗6+5e−0.24∗7+4e−0.24∗8+3e−0.24∗9+2e−0.24∗10+1e−0.24∗11 \begin{array}{l}{S=12 e^{-0.24 * 0}+11 e^{-0.24 * 1}+10 e^{-0.24 * 2}+9 e^{-0.24 * 3}+8 e^{-0.24 * 4}+7 e^{-0.24 * 5}+6 e^{-0.24 * 6}+} \\ {5 e^{-0.24 * 7}+4 e^{-0.24 * 8}+3 e^{-0.24 * 9}+2 e^{-0.24 * 10}+1 e^{-0.24 * 11}}\end{array} S=12e0.240+11e0.241+10e0.242+9e0.243+8e0.244+7e0.245+6e0.246+5e0.247+4e0.248+3e0.249+2e0.2410+1e0.2411
约等于39.93 ,而不降权的方式sum(1,2…11,12)=78。

考虑客户在登录,更新贴和发帖的权重不同,分别取权重为登录:0.2,更新帖:0.3,发帖:0.5。

2、使用Kmeans算法,进行聚类,K值根据手肘法得到最优值,然后结合业务需求确定。

3、聚类为K类,然后计算每类的中心点的在登录,更新帖和发帖的降权总得分,依次对应业务含义的类别。

4、数据验证:

(1)利用轮廓系数,评估K类的聚类效果。

(2)分析K类的数据占比,是否和预期相符。

(3)K类数据,每类取部分随机样本,进行数据分析,看是否符合本类的业务含义。

特征选取

首先按照上述冷却公式计算12个周期,每周的降权得分,在三个维度(登录,发帖,更新贴)的得分总和。
然后取 最近活跃周期,总活跃周数,连续活跃周数,活跃信息熵,连续不活跃周数 五个统计特征作为建模输入特征。

信息熵简介

信息熵作为特征可以表征12周得分序列的是否有数据,即每周是否活跃的一种纯度。
H(x)=−∑i=1np(xi)log⁡(p(xi)) \mathbf{H}(\mathbf{x})=-\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(p\left(x_{i}\right)\right) H(x)=i=1n

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值