Mining user similarity based on location history

介绍了一种基于用户GPS位置历史记录的相似性度量方法——HGSM算法。该算法通过分析用户的停留点(staypoints)并利用OPTICS算法进行多层次聚类,进而构建用户轨迹模型。通过对轨迹序列相似性的计算及不同层次聚类结果的加权融合,实现用户间的相似性评估。

文章利用用户的GPS位置历史记录来衡量用户之间的相似性。提出HGSM算法,主要考虑了用户轨迹的顺序性和访问地点的层次性。

        首先,对用户轨迹分析,抽取出所有的stay points(文中提出一个算法,主要看两点之间的距离以及时间),其他点就忽略掉(LBSN中的签到其实就几乎等价于本文的stay points)。


        之后,对所有的staypoints以不同粒度进行聚类(文中运用了OPTICS算法),得到层次图。自上而下,粒度越来越细,最底层就是所有的stay points


        再对用户的轨迹建模,抽象成:


我们认为两个seq相似,其地点顺序是相同的,且每段时间差小于一个阈值。文章又提出一个算法来计算两两轨迹中的最长相似seq

        最后进行用户的相似度测量,依靠两条原则:两者轨迹的最长相似seq的长度越长,则两人的相似性越强;对于层次图,越低层(粒度越细)的相似seq对用户相似度的贡献越大。因此,有:

1m-length seq的相似测量:s(m) =α(m) Σi=1mmin(ki, ki’)。其中α(m)=2m-1,表示seq越长对相似性贡献越大。

2)第l层上的相似测量:sl= 1/(N1*N2) Σi=1n siN1N2分别代表了两个用户的staypoints数量。n为两用户在该层上的最长相似seq的长度。

3)整个相似测量:soveral=Σl=1Hβlsl,其中βl=2l-1,表示越低层的相似seq对用户相似度的贡献越大。

最后实验部分,对65个实验对象,记录了他们6个月的移动轨迹,然后进行了对比分析,评价标准是MAPnDGG

自我感想:文章给我最大的启发是,对地点的层次化处理,以及轨迹长度的处理,这些都可以运用到我的方法中去。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小实习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值