文章利用用户的GPS位置历史记录来衡量用户之间的相似性。提出HGSM算法,主要考虑了用户轨迹的顺序性和访问地点的层次性。
首先,对用户轨迹分析,抽取出所有的stay points(文中提出一个算法,主要看两点之间的距离以及时间),其他点就忽略掉(LBSN中的签到其实就几乎等价于本文的stay points)。
之后,对所有的staypoints以不同粒度进行聚类(文中运用了OPTICS算法),得到层次图。自上而下,粒度越来越细,最底层就是所有的stay points。

再对用户的轨迹建模,抽象成:

我们认为两个seq相似,其地点顺序是相同的,且每段时间差小于一个阈值。文章又提出一个算法来计算两两轨迹中的最长相似seq。
最后进行用户的相似度测量,依靠两条原则:两者轨迹的最长相似seq的长度越长,则两人的相似性越强;对于层次图,越低层(粒度越细)的相似seq对用户相似度的贡献越大。因此,有:
1)m-length seq的相似测量:s(m) =α(m) Σi=1mmin(ki, ki’)。其中α(m)=2m-1,表示seq越长对相似性贡献越大。
2)第l层上的相似测量:sl= 1/(N1*N2) Σi=1n si,N1和N2分别代表了两个用户的staypoints数量。n为两用户在该层上的最长相似seq的长度。
3)整个相似测量:soveral=Σl=1Hβlsl,其中βl=2l-1,表示越低层的相似seq对用户相似度的贡献越大。
最后实验部分,对65个实验对象,记录了他们6个月的移动轨迹,然后进行了对比分析,评价标准是MAP和nDGG。
自我感想:文章给我最大的启发是,对地点的层次化处理,以及轨迹长度的处理,这些都可以运用到我的方法中去。
介绍了一种基于用户GPS位置历史记录的相似性度量方法——HGSM算法。该算法通过分析用户的停留点(staypoints)并利用OPTICS算法进行多层次聚类,进而构建用户轨迹模型。通过对轨迹序列相似性的计算及不同层次聚类结果的加权融合,实现用户间的相似性评估。
1061

被折叠的 条评论
为什么被折叠?



