Mining user similarity based on location history

最新推荐文章于 2026-07-02 11:35:11 发布

原创最新推荐文章于 2026-07-02 11:35:11 发布 · 1.9k 阅读

·

0

·

本内容遵循CC 4.0 BY-SA版权协议

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

收录于

论文解读

介绍了一种基于用户GPS位置历史记录的相似性度量方法——HGSM算法。该算法通过分析用户的停留点(staypoints)并利用OPTICS算法进行多层次聚类，进而构建用户轨迹模型。通过对轨迹序列相似性的计算及不同层次聚类结果的加权融合，实现用户间的相似性评估。

文章利用用户的GPS位置历史记录来衡量用户之间的相似性。提出HGSM算法，主要考虑了用户轨迹的顺序性和访问地点的层次性。

首先，对用户轨迹分析，抽取出所有的stay points（文中提出一个算法，主要看两点之间的距离以及时间），其他点就忽略掉（LBSN中的签到其实就几乎等价于本文的stay points）。

之后，对所有的staypoints以不同粒度进行聚类（文中运用了OPTICS算法），得到层次图。自上而下，粒度越来越细，最底层就是所有的stay points。

再对用户的轨迹建模，抽象成：

我们认为两个seq相似，其地点顺序是相同的，且每段时间差小于一个阈值。文章又提出一个算法来计算两两轨迹中的最长相似seq。

最后进行用户的相似度测量，依靠两条原则：两者轨迹的最长相似seq的长度越长，则两人的相似性越强；对于层次图，越低层（粒度越细）的相似seq对用户相似度的贡献越大。因此，有：

1）m-length seq的相似测量：s(m) =α(m) Σi=1mmin(ki, ki’)。其中α(m)=2m-1，表示seq越长对相似性贡献越大。

2）第l层上的相似测量：sl= 1/(N1*N2) Σi=1n si，N1和N2分别代表了两个用户的staypoints数量。n为两用户在该层上的最长相似seq的长度。

3）整个相似测量：soveral=Σl=1Hβlsl，其中βl=2l-1，表示越低层的相似seq对用户相似度的贡献越大。

最后实验部分，对65个实验对象，记录了他们6个月的移动轨迹，然后进行了对比分析，评价标准是MAP和nDGG。

自我感想：文章给我最大的启发是，对地点的层次化处理，以及轨迹长度的处理，这些都可以运用到我的方法中去。

标签

#LBSN #用户相似度 #数据分析

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小实习 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。