摘要
尽管人们的流动及活动模式具有叫很高的自由性及多样性,但是仍旧受地理空间和社会关系的限制。我们通过研究手机定位的数据与两个在线的基于位置的社交网络的数据,来理解支配人类移动意向的基本法则。我们发现:人类的活动是由两类活动组合起来的,其一是受时间和空间限制的有周期性的活动,其二是与社会网络关系相关的随机的跳跃式活动。近距离的活动大都体现了其时间和空间的周期性重复特征,同社会网络结构关联不大;而远距离的活动受到社会网络关系的影响很大。研究结果表明社会关系可以解释大约10%~30%的人类活动,而周期性的模式可以解释50%~70%的活动。基于我们上述发现,我们提出了一种人类活动模型,该模型组合了近距离的周期性的活动和基于社会网络结构的旅行。我们发现,该模型可以准确预测人类的活动及位置,这比现有的移动模型的效果好上好几个数量级。
1. 简介
虽然我们愿意相信我们的流动和运动模式有极高的自由性和多样性,但全球的大规模人口流动却呈现出受地理和社会制约的结构模式。人们会期望自己的流动性表现出很强的周期性行为,因为我们几乎每天的日程就是往返于家和工作场所。但是一天的假期往往限制我们只能去附近的地方旅游,即流动性受到了地理位置的约束。此外,移动性也可以进一步由我们的社会关系形成,例如我们更喜欢去我们的朋友或与我们有相似爱好的人去过的地方。
以上是关于人类移动的动态性最基本的问题和假设。但我们发现其中还有很多的未知部分,而这其中无法解释的问题原因是由于人类行为活动的规模巨大很难获得。然而,最近基于位置的在线社交网络应运而生,用户可以通过在网站“签到”的方式分享自己当前所在的位置,类似的网站有Foursquare, Facebook, Gowalla等。尽管,通过传统地蜂窝电话进行的呼叫记录已经被用于跟踪通过电话塔关联的被叫用户的地理位置,基于位置的社交网络提供了一个新的思维去理解人类的移动性。尤其是,由于手机提供的定位数据是模糊的不精确的,但基于位置的社交网络提供的是一个精确的数据,它可以精确的区别在同一栋楼里不同楼层的签到。但另一方面,基于位置的社交网络的签到数据时分散的不定时的,但是当用户接打电话时的通话数据提供了一个相对较好的时间分辨率作为用户的签到。这两种类型的数据都包含了网络信息,基于位置的社交网络维持了一个线上朋友圈,而通讯网可以推断出手机上的网络信息。
这些数据可以用来研究人类三个主要方面的移动性:地理移动(我们去哪?即:用户当前位置)、时间的动态性(我们多久出去一次?即:用户出行的频率)、社交网络(社交网络与人类移动性有怎样的交互作用?即:位置与好友的关系)。以前,我们的研究至多集中在其中的两个方面。例如:研究人类动态活动的建模,理解地理距离的作用、社会的交互以及感知空间(媒体)的变化。另外,还探索了如何将社交网络嵌入到潜在的地理信息中,如何用地理信息来推断社会关系。与此相反,我们研究的是将人类移动性这三个方面之间的交互影响来建立一个连贯的人类动态移动模型。
在广义语境下,理解和模拟人类的移动性有很多的应用和结果。对用户地理位置的掌握可以帮助提升扩大系统的规模,例如:云计算,基于内容传递的网络,基于位置的推荐等。更广泛的,城市规划中最重要的部分——人类流动模型,以及人类的迁移模式和疾病的传播等都需要精确的人类动态移动模型。
1.1 当前任务
我们需要研究人类地理位置的移动、时间动态、社会网络关系这三者间的关系。特别地,我们分析了地理位置的作用和人类日常生活模式,同时也分析了社交关系的影响(即:远行去见一个朋友)。我们设法去确定决定人类人类活动的基本特征,并向试着回答如下问题:一个人出行去见某个朋友的可能性有多大?一个人去某地方能结交一个新朋友的可能性有多大?当这段出行离家很远时这种可能性会增大还是减小?
1.2 结果概述
1.2.1实证研究
我们用二个非常流行的基于地理位置的在线社交网络的数据,同时跟踪一个欧洲国家200万个手机用户, 观察结果表明:人们通常定期在一个有界区域内活动,但偶尔会有一次远行。而且,去远方亲戚或朋友家的可能性比较大。因此,也许令人惊讶,短距离的旅行很少会受到社交网络体系的影响,然而当一个人去远行时,那么他去现有朋友所在地的可能性比较大。总之,我们发现,现有朋友对一个人的移动性的影响是一次远行对一次新友谊影响的两倍。同样,在手机定位数据与基于位置的社交网络的“签到”数据中,我们注意到其强有力的共识以及人类移动性模型具有的稳健性。
总之,用朋友间的移动性预言某一用户的位置有其利弊。我们发现用户最有可能在其朋友签过到的地方签到,而且这一可能性会随着时间的增长而呈幂指数下滑,而用户移动轨迹的相似性很好的证明了社交网络中的一条关系链。尽管朋友关系和移动性有强有力的关联,但仅用用户间的这种关系预测人类的移动性是很牵强的。例如:84%的用户中只有不到20%的人的签到是其朋友签过到的地方。我们调查结果表明,社会关系可以解释约10%的手机用户数据,和高达30%的基于位置的社交网络数据,但是周期性的移动行为却可以解释大约50%~70%的数据。
1.2.2 移动模型
移动模型建立在我们的实证研究基础上,我们开发了一个具有周期性和社会性的移动模型,用该模型来预测用户的移动性。尤其是,我们建立在一个观察之上,这种观察是对用户在工作日的某一时间段的主要(“家”)和次要(“工作地点”)地点的观察,同时也观察了周末主要地点“家”和由社交网络驱动的位置。我们的模型由三个部分组成:(1)用户经常访问的空间位置模型(2)基于空间位置的时间模型(3)由社会网络关系影响的移动性模型。基于一天中精确地周期性的过渡模型,我们捕获了动态时间下位置的转换。我们用混合混合模型模拟用户位置,发现灰度主要集中在“家”和“工作地点”两个位置。在此之上,我们用“社会”移动性模型来支配周末及晚上空闲时间用户的移动性行为。
我们开发了基于参数评估方法的最大期望算法,它用三个指标评估了具有周期性和社会性的移动模型的预测能力。实验结果表明:我们的模型比现有的移动性模型有超过两三个指标的因素。我们的模型以40%的精确率预测了当前用户的地理位置,其中手机数据所提供的位置的误差平均约为0.23%,基于位置的社交网络的签到数据的误差约为2.7%。我们发现该模型具有强鲁棒性特点,同时手机数据和基于位置的社交网络提供的签到数据也具有一致性特点。
1.3 进一步的相关工作
人类的移动性模型认为移动既可以作为扩散的过程,也可以看做是以单个固定点为中心的随机过程。我们的模型将人类随机变换的几个点作为固定的定点,这种额外的灵活的模型的一两个因素会使预测度更加精确。越来越多专业的移动性模型还考虑到无线网络,因此还模拟了用户过渡访问无限网络的节点。同样的,有些移动性模型还被试图用GPS跟踪定位去捕捉人类周期性的移动,GPS定位系统大都是由公路网络的物理嵌入控制的。但是,GPS和无线网络都允许不间断的跟踪用户的位置,因此上述的这两种模型的研究只能局限在一个相对较小的用户数量或地理区域。相比之下,我们的手机数据覆盖了一个大国的近200万用户,而且,基于位置的社交网络的签到数据跨越了地球的每个角落。
2、签到的特点
我们用3种不同的数据集来捕获人类的移动性。首先,我们考虑了2个在线的基于位置的社交网络。我们采集了在2009.2~2010.10间Gowalla社交平台上的公共签到数据和在2008.8~2010.10间Brighkite社交平台上的公共签到数据(Gowalla和BrighKite都是基于位置的社交网络)。在Gowalla平台上的签到数据总计达640万,在BrighKite平台上的签到数据总计达450万。这些数据都映射了一个相对准确的信息,在Gowalla中,人们之间的朋友关系是相互的,而BrighKite中的朋友间的关系是有向的。简单起见,我们把BrighKite看作是一个无向的网络,仅考虑双向边(相互都是朋友)。我们将每个用户看作是一个点,把人们之间的一条社会关系看成是一条边,那么在Gowalla中有196591个点和950327条边,在BrighKite中有58228个点和214078条边。
为确保我们对人类移动性的观察不仅仅是具体到对基于位置的社交网络的签到数据,因此我们还覆盖了从手机跟踪定位系统采集的数据集。手机中的数据集主要来自欧洲的一个手机服务供应商,这个数据集包括近200万用户在455天中的4.5亿次的手机通话记录。对每一次的通话,距离通话两端最近的手机信号塔会记录本次通话。总之,这意味着在3km左右的空间范围内有近乎9亿次的签到。数量巨大,因此我们仅考虑发生在本国范围内的签到,当用户彼此通话超过5次以上(双方通话次数超过10次以上)时便生成一个社会网络关系。在此条件下一共产生了200万个点和450万条边。
在接下来的章节里,我们用“签到”代替一个事件,该事件是一个时间、地点都确定的用户的一次记录。在基于位置的社交网络中,这意味着用户正在使用在线社交平台记录记录自己现在所在位置;对于手机用户而言,这意味着用户正在接打电话。在一块区域内,我们用红色标注Gowalla的签到数据,用蓝色标注BrighKite的签到数据,用绿色标注手机签到数据。这方便我们使用混合高斯模型建模。
2.1签到用户的行为
这里我们主要分析了用户签到的空间和社会特征。我们准备了几个问题:离家多远会驱动用户出去旅行?他们远行去见朋友的可能性有多少?但往往用户的居住地点不会明确给出。当用户“家”的位置没有明确给出时,我们便把离散的世界划分成许多个以25km为半径的地理空间,在这一空间内,把平均签到频率最高的位置定义为用户的“家”。人工检测表明,这种方法有85%的精确度推断出用户“家”的位置。
确定好家的位置后,我们首先要衡量——用户会去离家多远的地方旅行?在图1中显示的是将签到数量看做是一个随着离“家”距离变化的函数。我们发现这一分布呈带有指数截断的幂律分布,截断点在在大约100km的地方。在100km之前,随着距离增大,出行签到的分布曲线衰减剧烈;然而,在100km之后,随着长距离的跳跃,签到的分布曲线逐渐平缓。我们用适合幂律分布的最大似然数做参数,发现在100km标记处,幂律分布出现指数分布特征,即指数截断。还有一点,我们发现所有的数据集都有这种相似的分布特征。但是由于Gowalla和BrighKite的数据来自整个世界,手机数据只限于某一国家,因此手机签到数据比上两种数据下滑的要快许多。
图-1 用户签到随着离家距离的分布曲线
我们可以用人口密度分布不均匀来解释在100km处出现的明显区别。图2中显示的是朋友间住址的概率分布曲线,我们发现,在100km左右处出现了同样的一个结点,即当朋友间住处的距离相差小于100km时,概率的分布会减小的很快,但当距离大于100km时,概率的分布又会变得比较缓慢。此外,我们还检测了随机用户间住址的概率分布如图3所示,我们发现分布曲线在100km标记处有更明显的变化。具体表现为:如果这对随机用户的住址小于100km时,随着距离的增大,概率会明显急剧下滑;当住址大于100km时,概率的分布会变得平缓而后又开始上升。这种在100km标记处出现的突兀的变化可以解释成用户的居住地在地球上的分布是不均匀的离散的,而人类在城市间的分布是聚集的。而且,100km是典型的人类只需1~2小时就可到达的区域半径。
图-2 一对朋友住址分布曲线 图-3 一对随机用户住址分布曲线
图3显示的是200个大城市的分布曲线,我们发现城市的分布曲线也呈一个定性的模式,这与一对随机用户的地理位置分布相似。为了校正地理分布的不均匀性,我们对在特定距离范围内用户拥有朋友的概率进行了计算,如图4所示。我们发现,在100km处的结点消失了,用户间是朋友的概率会呈幂律递减,并在概率为0.85左右的地方呈现指数分布规律。这恰好证明了在100km处出现的特征不是因为社交活动中的朋友关系的影响,相反却是由于城市间的距离超过100km的不均匀的人口密度分布导致的。
图-3 200个大城市的分布曲线 图-4 潜在朋友关系的概率分布曲线
3、朋友关系与移动性
目前为止,我们的研究的问题是——离家多远会驱动用户出去旅行?并对该问题中出现的非规律性结点做了调查研究。接下来,我们将更加关注人类在社会网络中的交互结构及他们的移动性。
3.1 到朋友家附近
首先需要调查了人类移动的社会性。我们用A到朋友B家附近旅行的概率做模型进行调研,其目的是为了理解A的朋友B是如何影响A的移动的。我们所采集的数据是在B家附近的签到。我们直观的预计:人们更喜欢去有朋友在的地方,而且多半这种概率会随着出行距离的增长而减小。上节表明,我们的朋友大都住的比较近。因此我们预计他们影响了我们绝大部分的出行活动。然而,正如我们稍后看到的,情况并不是这样。
按照如下步骤,我们对研究结果进行了量化。我们把A在l(r)区域(l(r)表示以B的居住地点为中心半径为r的一片圆形区域)内的签到都看作是一次“访问”,用Pdata(d)衡量A访问朋友的概率,参数d是A从家到目的地的距离。概率Pdata(d)仅仅是A在l(r)区域内签到数据的一小部分。我们为半径r更换了许多不同的常量,发现其行为特征是一致的。
图5中的实线Pdata(d)的意义是:将“访问”朋友的签到数据的一小部分作为一个距离函数,这个距离即是参数d。我们发现:当距离大于100km时,Gowalla和BrighKite的签到数据都展示了相似的曲线特征——拜访朋友的概率值约为0.3,且呈水平趋势。这意味着如果一个用户去离家100km外的地方旅行,那么有30%的可能性他会去拜访朋友。而且,这种可能性会持续一段距离。当距离d很大时,人们远行的概率又会逐渐增大,但朋友的数量却会越来越少。这表明拜访朋友的概率会随着旅行距离加大而减小(人们出去远行的概率很大,但这个距离d却远远超出了从A到B住处的范围,因此拜访朋友的可能性就变得很小)。更有趣的是,我们发现拜访朋友的概率保持在一个常量上。令我们惊讶的是,它表明了朋友间的关系在近距离上会影响我们的活动,但距离较大时这种影响会减弱。为了更精确这一点,我们对比了在忽略社会网络结构后(即忽略朋友之间的这种关系),建立了一个社交网络与移动性之间的因果关系。
图-5 用户拜访朋友的概率曲线分布 图-6 空模型下朋友关系对移动的概率影响
对比有社交关系的概率Pdata(d),Pnull(d)表示的是:假设用户的出行活动是随机的,一个朋友将会在这个用户附近的概率的量化。我们考虑了在人口密度分布不均匀的情况下用户会随机去哪里?并衡量用户到朋友家附近的可能性有多大。在图5中虚线表示的分布中,我们观察发现在100km距离范围内,虚线呈较强的单调递减函数,这意味着如果不考虑用户之间的亲密关系(但依赖人口密度),那么离家越远的旅行,拜访朋友的可能性就越小。而且在图6中,我们对比了用一组真实的空模型数据来量化朋友关系对用户移动的影响。发现一个朋友对用户的实际影响随着距离的增加而有一个跳跃式的增长。例如:住在远离自己家1000km处的朋友对用户移动的影响力是住在40km处的朋友对其影响力的10倍。在没有模型的版本中,即使用户远行的距离是相同的、可靠的,但其移动的方向是随机的。在这种情况下,我们观察到社交网络关系对人类流动性有一个更强大的效果。
3.2 朋友关系对用户流动性的影响
上面我们紧紧观察到远方朋友对人类移动性的影响,然而,迄今为止我们也只能概括:一个人的旅行与他和朋友家的相对距离有关,距离越大则影响力越大。但是,很显然朋友关系可能是在用户旅行前就已经建立了,也有可能是旅行后建立的。所以对上述结论我们有2种解释:如果朋友关系先存在,我们可以理解为朋友关系影响了人类的移动性;反之,朋友关系是由一次出行创造的,那么我们可以说旅行影响或创造了友谊,即改变了我们的社交网络关系。
为了区分这两种朋友关系,我们采集了Gowalla上的两个个不同时间点t1和t2,(这两个时间点大约间隔3个月),对比在这两个时间点上的网络结构和签到数据,测量允许范围内不同网络关系方向上的因果关系的程度。具体方法如下:我们用Ca表示发生在t1时间点后某天的签到数据集,再通过Ca衡量发生在朋友家附近的签到数据部分Cr。通过数据集Ca,分析发生在朋友家附近(一朋友家为圆心,距离r为半径的区域,例如r=25km距朋友家25km范围内)的数据部分Cr。由于该网络结构是t1时间点之前的网络关系结构,即已存在的朋友关系,这种方法便可发现朋友对移动的影响力。类似地,我们也研究了移动对创建新的社会网络关系的影响。我们收集发生在t1时间点前某一天的数据集Cb,分析签到数据集中的哪一块数据导致在t2时间点前创建了新的网络关系。我们姑且认为:如果用户A的签到在Cb中存在(Cb是发生在以B家为圆心半径为r的区域内的t1时间点之前的签到数据),我们就说用户A的移动性会触发形成A与B之间的友谊。由于签到数据的采集比构建一个社交网络关系的复杂度要小很多,因此我们便用上述方法发现移动对社交网络关系建立的影响。
从对Gowalla上的数据分析,我们发现用户远行去拜访朋友的概率为64%,而由远行创造的新的社交网络关系的概率仅为24%。基本上,朋友对人类移动的影响力是移动影响创造新友谊关系的2.5倍。我们还用手机数据进行了相似的实验,发现其结果也是相似的。因此我们认为,假若一对用户彼此住在超过100km的地方,他们出行拜访已有朋友的概率为70%,远远高过这对用户创建新友谊的概率。
3.3 去朋友到过的地方
目前为止,我们对用户的移动性研究仅仅是用户A到朋友B处的研究,对用户B来说并没有移动,也就是说我们只考虑了A靠近B。现在我们扩展了环境,考虑A和B同时移动的情况,分析他们影响他们见面可能性的各个方面。社交网络上的签到数据提供给我们精确地位置信息(例如:某一咖啡厅的名字)。我们像之前对用户签到数据的实验一样,研究分析用户某一特定的签到数据,该数据位置是他其中至少一位朋友之前签到过的特定地理位置。我们同样设计了一个空模型,用类似的方法分析。我们发现,用户的出行的距离越远,那么此次出行受到朋友的影响概率就越大。友谊对长途跋涉(比1000km还远)的影响力比对短途旅行(比25km还近)的影响力高出了不止一个数量级。同样,我们也观察到,对于离家超出100km的外出移动,用户在现有朋友签到过的一个完全相同的地方签到的概率保持在10%左右。(简洁起见,我们省略了分布曲线图)。
3.4 友谊预测移动性的限制
虽然我们已经证明友谊关系对人类移动性的影响力增强,但在Gowalla提供的签到数据上仅有9.6%的签到时某一位置先被朋友访问过后被用户访问,而这种概率在BrighKite上仅有4.1%的发生率。这样看来,为了进一步的探索,我们现在研究的友谊对人类移动性的预测是有限的。虽然,我们观察到用户的轨迹与可能是朋友关系的轨迹是相似的。然而,这种相似性通常是一般用户仅有一小部分签到是与他们朋友的签到有较高的重叠。
这里,我们探索具有相似的移动轨迹的用户和他们能成为朋友的概率之间存在的联系。对每一个用户,我们都创建了一个轨迹向量,i元素记录的是用户访问位置i的次数,下一步我们对用户对应轨迹向量的余弦曲线的相似性来确定一对用户的移动轨迹。图7显示的即是友谊作为轨迹相似性的函数的概率。我们观察到,我们观察到两个量之间强烈的依赖关系,就像当一对用户有40%的签到数据是相同的,那么他们他们是朋友的可能性至少有30%。我们相信,这是社会和地理趋于一致的强烈的存在。
图-7友谊作为轨迹相似性函数的概率分布曲线
虽然我们已经展示处轨迹的相似性与友谊之间有很强的关联,但是用户需要偶大量准确的签到数据的重叠才会使轨迹相似性更有意义。为了研究这一问题,我们计算了每个用户在朋友签过到的地方签到的数据部分,量化后的分布如图8所示。我们注意到,广大用户的签到往往与朋友的签到不同。在Gowalla上,84%的用户仅有不到20%的签到是与朋友之前的签到相同,有52%的用户签到与朋友之前的签到完全不同。这意味着大约50%的用户的移动性不能从社交网络关系中推断出来。
3.4 人类移动的时间与地理周期性
我们对社交网络对人类移动性的研究,至今为止都没有一个统一的结论。一方面,我们发现社交网路对长途旅行的影响大过短途旅行;然而另一方面,我们同样观察到用户的小部分签到时与朋友的签到相同。现在,我们来关注人类移动性的非社会因素。尤其是对人类周期性移动的研究(包括时间和地点)。直观地看,我们预计某些类型的地点在每天的同一时间是经常被访问的,如家和工作场所。
衡量周期性的一种方法是对用户对以前去过的地方的签到数据进行分析。我们观察到BrightKite里有53%的用户签到是该用户以前去过的地方,在Gowalla中这种情况占31%。这意味着,如果一个BrightKite用户在某一个地方初次签到,那么有53%的可能性该用户还会到此处签到;从另一方面来说,社会网络关系的影响力比这小5倍,即我们之前证明过的,在社会网络关系下用户到朋友去过的地方的签到的可能性仅有10%。
最后,我们对地理和时间的周期性关系进行研究,图8(a)和(b)分别显示的是BrightKite和Gowalla上一周内每小时的签到位置的平均信息量(香农熵)的曲线图。熵越低,表明在这一时间段签到的变化就越少。我们观察了在同样的24小时,7天的时间规模当中周期性。在这些日子里,清晨的位置熵最低(即,大多数人都在家里);在上下班高峰期时,位置熵又会增加;在晚上当人们可能应酬的时候位置熵也会增加。对比周末和工作日,前者的位置熵比后者要高(至少在BrightKite和Gowalla的数据中是这样)。这表明,在工作日人们通勤上下班在大致相同的时间,而周末人们的出行和时间表都难以预测。
图-8 随着时间的推移三种签到数据的位置熵变化曲线
4、人类移动性模型
在下面的章节,我们开发人类移动性模型,这能够使我们准确的预言用户的未来活动。目前为止我们得到的结论已经强有力的证明了时间(移动在一天中固定的时间点)和空间(返回到同一地方)周期性,同时也证明了社会网络结构对个人移动性渐增的关系。我们继续通过制定并入人类移动性的三个基本要素(时间、空间的周期性移动和社会网络结构)的一个连贯的模型。首先,我们提供了一个周期性移动模型(PMM),由于社交网络结构也能影响人类移动,因此后来我们扩展到制订了一个周期性与社会性移动模型(PSMM)。
4.1 周期性移动模型(PMM)
我们将周期性移动模型建立在直觉上,即在一块小的潜在状态(位置)数据集下大部分人的移动基于周期性移动。为简单起见,我们的周期性模型仅用两个潜在的状态(尽管我们的模型可以处理这些数据中随意的一组数据),一种状态是“家”,另一种是“工作场所”。基于一天中的时间,用户的移动要么是在“家”、“工作场所”,要么是往返这两点之间的某个位置。图9显示的是:我们推断每个用户两个潜在状态的地理位置的中心,并用正态分布模拟它们;图10显示的是:我们建模的用户一天中是否是“家”和“用户”状态的时间函数的概率。图9中是住在旧金山生活在米西昂区(红色叉号)工作在金融区(蓝色的圈)用户的正态分布图,对该区域用户的每一次签到,我们推断他们是在家还是工作,并用方块标注“家”或“工作”的签到地理中心。图10所示的时序模型表示:在时序模型中用户这两个状态之间的转换,蓝线或红线距离圆中心的距离与用户停留在该状态的概率成正比(用户整晚在家为蓝色,白天在工作场所为红色)。
图-9 用户签到空间分布模型 图-10 用户签到时间分布模型
我们也可以把我们的模型看作是自生成的方式,以以下方式决定用户的签到:给定一天中的时间,判断用户的样本是否是在家或工作的状态(从图10中),然后根据状态,将用户样本是按照最贴切的家或工作的位置签到的地理位置分布(从图9中)。
我们现在开始正式引入周期性移动模型。令t为一天中的当前时间,并让xu(t)表示用户u在t时间的地理位置,cu(t)表示在时间t上的状态,当cu(t)=H时,表示用户在时间t时是在“家”的状态;当cu(t)=W时标傲世用户在工作的状态。用户签到的空间位置是由家/工作大致的签到位置的分布P[xu(t)=x|cu(t)]控制的。在时间t上以为用户的位置的概率分布是简单的“家”和“工作”的混合分布,其中混合系数是由时序模型控制的(相信用户当前的状态):
这意味着,在任何时间点,用户要么是在“家”要么是在“工作”状态。并且P[cu(t)]模型的概率分布是用户状态随着时间的变化而变化,然后我们单独保存了在两个状态下位置签到的概率。
4.2 周期性移动模型的时间组件
P[cu(t)]模型概率表示用户状态的概率分布,用一天中的时间点来参数化这一没有正态分布头部的概率分布:
然后,计算和;公式中表示一天中用户在“家”的状态中的平均时间,表示一天中时间的方差,表示由“家”的状态下产生的不依赖时间的签到概率。需要注意的是当计算时,由于我们用周期性的方式处理一天中的时间(即:下午11:59与上午12:01只有两分钟的间隔),因此和都是用相同的方法计算一个有关的圆的平均角度。例如在图12中显示的是用户状态的概率分布作为一天当中时间的函数(蓝色代表“家”的状态,红色代表“工作”的状态)。
图-12 时间轴下用户的状态分布
4.3 周期性移动模型的空间组件
许多以前的论文常用正态分布对人类围绕一个特定的点的移动建模。我们采用这种当用户在“家”或者“工作”的状态中时,用一个二维的与时间无关的高斯分布模拟移动:
其中和分别代表“家”和“工作”地点的协方差矩阵,分别表示用户在“家”或”工作”状态下的位置签到。
图-13 根据状态生成的签到位置分布
我们的模型实际上是基于之前的时间依赖模型下的两个状态的混合高斯模型,这意味着我们的模型把用户要么是“家”状态要么是“工作”状态下生成的签到进行分类。时序模型的部分控制两种状态的转换,而后,根据签到的状态地理位置生成两个时间不变的混合二维高斯分布,如图14所示的即是随着时间的变化用户位置的分布。
图-14 一天中不同时间点用户签到位置的分布
4.4 周期性与社会性移动模型(PSMM)
我们将社交网络驱动的移动性扩展到周期性移动模型中,将新的模型称为周期性与社会性移动模型(PSMM)。为将社交网络信息包含在模型里,我们对签到引入了另一种分类方式(t),(t)=1表示签到时社会性的(无周期性的);(t)=0表示签到时周期性的。通过下面的公式,我们建立了周期性与社会性移动模型:
其中是周期性移动模型。
鉴于用户u做了一个无周期的签到(即社交网络影响的签到),那么u即将在一个具体位置处的签到的概率由两个因素决定:一是多久联系一个朋友w,w的签到数据与的距离长度。我们的模型遵循以下公式:
,其中Ju是用户u的朋友w在同一天的所用签到数据集;tj表示第j次签到发生的时间,xj表示用户u的朋友w的第j次签到的位置。特定的幂律参数形成通过观察一下动机:用户w签到完以后用户u在处的签到概率呈幂律衰减,如图15所示。
图-15 在朋友去过的地方签到的可能性分布
图16显示的是两个朋友随距离变化时通话的可能性分布,发现同样也呈幂律衰减。
图-16 朋友间通话的概率随距离变化的分布
从建模的角度来看这意味着:如果用户u执行了一个无周期的签到(受社会网络影响的签到),则很有肯能与在同一时间和空间上朋友的签到相近。
4.5 拟合PMM和PSMM模型
首先我们描述了如何适应独立于社交网络的PMM参数,然后再考虑适应无周期性的签到(基于社交网络)。PMM参数采用期望最大化(EM)方法。开始时,每一个签到都是一个随机标签,要么是“家”要么是“工作”,在每一次的迭代中,第一次的模型中的参数u,∑,,使用最大似然估计法估计其值。这种参数拟合被称为“E步骤”。所有这些参数中超出空间限制的部分采用封闭的解决方案,这使得E步骤变得很高效。一旦模型参数已经得到,所有的签到数据会根据新模型的密度函数重新分配状态(“家”或“工作”)。这种标签重新分配称为“M步骤”。有了重新分配的标签,再重新迭代执行E步骤,直至收敛。由于EM是已知的唯一收敛于局部最优解,我们用随机初始分配的签到标签和用最大似然估计法得到的参数带入到算法中去重新运行该算法。
PMM有18个参数:4个时序模型参数(家或工作状态发生的时间均值及方差);12个空间模型参数(2个二维的均值和响应的协方差矩阵);2个社会模型参数(时间和距离的衰变)。为了防止过度拟合,我们使用几个正则化:我们加强了对∑最小化奇异值为10-7(通常这个值是规模较大的几个数量级),并且我们让时序模型的方差设定为10-4以上。
PSMM:我们培养了原始模型PMM,允许签到可以用状态分类成家、工作、其他(即社交网络的影响),因此我们假设签到并没有完全适合PMM模型,即受到社会网络的影响。然后我们将社交模型放入状态为“其他”的签到数据中去。结果,10%~30%的签到被分类为社交签到。每个用户通过EM将状态为其他的签到重新标注,并找到适合模型的参数α和β。
5、实验评估
下面的章节里,我们评估了三种数据集下的PMM和PSMM模型,特别是我们对模型的预测性能很感兴趣(即在一天中给定的时间里,我们的目标是尽可能精确地预测用户的地理位置)。我们采用三个评价指标,用三个强大的位置基线预测方法做比较。
5.1 评价指标
为比较不同的移动模型,我们使用以下的评价指标。第一个指标,我们考虑放在隐形的测试集里的签到的平均对数似然数,这种方法可以看到测试集与模型的拟合好坏层度。第二个指标,我们衡量预测的精准度,即在测试集里给出一天中的某一时间点的签到,查看每一种模型的预测的签到时的准确位置的精准度。例如,精确度为0.5意味着在这某一时间点该模型准确预言签到位置(所有已知的位置)的概率有50%。精确度是一个非常苛刻的指标。例如,如果一个模型预测位置总与正确的位置误差1米,那么该模型的精确度为0。第三个指标,我们称为是预期距离误差,这可以被认为是一个软件版本的精度,这个精度不包括预测准确的位置,而只是考虑预测的空间位置接近实际的签到位置。我们定义预期距离误差如下:对于给定的测试集里的签到,我们对实际签到位置与由一个概率分布模型产生的签到位置的距离进行测量:,因为从计算的角度讲,对地球上每个点计算准确的预期距离是不可能的,所以我们计算用户所有已签到位置的误差。
在这个指标中存在一个问题,它并没有考虑用户旅行这种典型的距离。因此,如果两个用户在不同的尺度上旅行,则用预期距离误差指标比较两个不同用户的模型性能是没有任何意义的。例如,一个用户通常去1000km远的地方旅行但他平均的距离误差只有10km,这比有相同距离误差但通常出行20km远的地方的用户的误差更容易接受。为了纠正这一问题,我们对误差通过回转半径进行标准化,它用户在特定一天远行的平均距离。我们通过用户在一周中特定一天的的回转半径将每个用户的期望距离误差进行划分,创建了相对期望距离误差。
5.2 基线模型
我们同样考虑三个有意义的基线模型进行比较。第一个基线,我们称之为最常访问的位置模型(MF)指定一个用户在一天中给定的时间点且在位置处的签到概率,作为在以前的在、处的签到部分。更确切的说,表示用户u的签到数据集,那么最常访问的位置模型可表示为:
,尽管很简单,但这个模型是一个非常强大的基线,对一天中的每个小时,MF模型用于预测一个特定用户最有可能的位置(用户最常访问的签到位置)。MF模型也非常直观,因为它模仿一下推理:假设你被要求猜你的一个朋友在周三下午两点的位置,如果你知道这个朋友工作的地点则所猜测的位置会有较高水平的确定性。同样的,如果你知道这个朋友经常度过欢乐时光的地点,那么他在周五下午六点出现在此地的概率会很大。事实上,如果一个用户的出行遵循完美的周期性,那么当,会呈现一个完全收敛的模型。但这个模型会有限制(这是这个模型需要改进的地方),它不考虑距离或空间的临近位置。
第二条基线——高斯模型(G),被 Gonzales提出。这以模型将人类的移动性看做是一个围绕一个点为中心的随机过程。对于一周中给定的某一天,我们用表示发生在这一天的签到的位置,用表示协方差矩阵,则有:
.注意,这个模型是静态的时间,最重要的地方是捕获用户移动的规模。
最后我们还考虑了一个模型,它可能会有良好的性能,RW模型将用户最后一次签到的位置预测为用户接下来要去的地方。
5.3 实验装置
在我们所有的实验中,我们只考虑了在一周中的每一天有十次以上签到的用户,我们将这些用户80%的签到放到训练里,20%的签到放入测试集里。这意味着我们用6233位BrighKite用户、10997位Gowalla用户及853812位手机用户来评价模型的优劣。对每一位用户我们建立7个模型,其中有一个是对一周中的每一天的签到建模。总体而言,这意味着我们最少我们只能使用8个签到数据(特定的某一天)建模,剩余2个用于测试模型建模。
5.4 预测移动性
首先,我们比较了周期性模型PPM与基线模型的性能。简单起见,我们只研究了BrighKite和手机用户的数据。
图17表示BrighKite数据中这五种模型(PMM、PSMM、MF、RW、G)的准确性,G模型表现出了最低平均精确度19.7%;RW模型总是预测最后一次签到的位置,其精确度为22.7%;然而MF(最常访问的位置模型)的精确度为32.5%。但是,我们的模型相比G模型提高了83.1%的精确度,较MF模型相对提高了11.0%的精确度。此外,PMM模型可以确定用户签到的具体位置的精确度高达0.4倍,考虑到数据中的噪音和一个用户访问不同位置的数据量之大,我们认为这个数字是一个显著的成果。有趣的是,我们还观察了所有模型在平日所展现的较好的性能但却在周末时很难预测用户位置。
图-17 BrighKite数据模型准确度 图-18 手机数据模型准确度
同样,在图18中展现了手机数据中这五种模型的准确性,我们有类似的观察,PMM的精确度为42%,是G模型精确度的1.1倍,RW模型精确度的0.44倍;然而PMM与MF模型的区别很小。这是由于手机数据的空间分辨率较粗糙:用户移动的数据被捕获时是用一个粗糙的内容,因此减少位置精确度是必要的。
图19和图20分别显示用对数似然数评价指标检测测试集的结果。观察看出G模型是迄今为止最严重的,PMM在两个数据集的两个基线都表现突出(RW没有显示,是因为它没有密度函数)。
图-19 BrighKite测试集对数似然数指标 图-20手机测试集对数似然数指标
最后,图21和图22分别展示了这五种模型的相对预期距离误差。PMM的平均相对预期距离误差在BrighKite上是2.9%,在手机上是0.27%。总之,它比G模型好0.556倍,比RW模型好0.289倍,比MF模型好0.274倍。按绝对值算,PMM模型的平均绝对位置误差在手机上约10公里,在BrighKite上约为90公里。
图-21 BrighKite数据模型误差指标 图-22 手机用户数据模型误差指标
5.5 社会模式预测性能
对于这两种数值:平均对数似然数和相对期望距离误差,PSMM为PMM模型提供了一个相当大的改善,对相对期望距离误差相对提升了10%,对平均对数似然数相对提升了25%。我们预计,随着密集的数据集(大多都是签到数据),两个朋友的签到在同一位置的发生率会变得更为频繁,甚至PSMM模型在周期性模型上会产生更高的改善。
5.6 相似的日常移动性模型
我们还量化了在每周不同的日子移动模型的相似性,我们将使用下面的模型建立相似性指标:C1与C2代表两组不同的签到数据集,P1与P2表示匹配这两组数据集的PMM模型,然后我们定义:.S(标准差)类似于协方差样本里一个子集点,它可以比较任意两个PMM模型,无论这个模型是一个用户每周不同的时间还是一周中的同一天的两个用户。如果P1=P2,那么S(P1,P2)=1。
图23反应了BrighKite和手机用户一周中每天的签到数据的标准差S的均值,在工作日,用户在工作日表现出与彼此很强的相关性,但在周末这种关联性减弱;相似的,周末(周六和周日)显示了很强的关联性。这意味着即使旷班或缺勤,用户的移动仍然具有周期型结构。
图-23 用户签到数据标准差分布(左侧为BrighKite用户,右侧为手机用户)
5.7 潜在状态的数量
至今为止,我们的研究仅限于两种状态(家和工作),但模型似乎很自然的考虑增加潜在的状态使模型变得更强壮。的确,当状态增加到三个四个时(每个潜在的状态都拥有属于自己的高斯模型和时序周期),模型的精确度也会增加。然而对于添加的每个潜在状态,回报就会减少。即使通过添加第三个状态会使模型性能变好,但这种效果远比比较两种不同的状态模型和一个独立状态模型的效果弱。例如,用一个状态模型判断BrighKite数据一周中每一天的位置的精确度为19.7%,而用两种状态模型判断的精确度为36.1%,有81%的相对提高。用三种状态模型只能增加3.3%的性能。因此我们只考虑两种状态模型(“家”和“工作”)就已足够计算用户的移动性。
6、总结
我们采用三大数据(Gowalla、BrighKite和Cellphone)来研究人类的移动性,其中Gowalla和BrighKite这两个数据集是两个基于位置的社交网络的数据,这些数据覆盖了整个地,而Cellphone数据即是手机接打电话时的手机定位数据。即使基于位置的社交网络数据与由信号塔定位的手机位置数据非常不同,但我们还是通过这些数据集发现人类移动的相同模式。最令人惊讶的是,我们发现人类在短距离空间和在时间上具有的周期性是不受社会网络结构影响的,但长距离的旅行往往会受到社会网络关系的影响。
我们还制定了一个人类移动性动态模型(PSMM),该模型结合周期性(一天天的移动状态)模式与社会性(受到来自网络上朋友的影响导致的移动)模式。我们的模型可以可靠的捕捉和预测人类移动模式,远远优于当下仅有两个因素的移动性模型。