信令大数据实现新冠传播趋势溯源与推演

创作初心

与2003年SARS相比,我们的科技水平已经有了较大的提高。通过科技技手段的运用,特别是充分挖掘手机信令的数据价值,可以更有针对性地解决防控疫情问题。

从技术上角度上说,利用手机信令数据完全可以对一个地区甚至更大空间范围内的人口流动,进行详细地数据搜集。近些年一些城市在举办大型活动、人口调查,旅游人口,传染病传播流向与的分析上,都采用了以手机信令为核心数据源的分析和洞察。基于手机信令的数据分析,为提高大型活动的安全治理,人口空间的分布情况以及重点区域的管理都提供了重要的科学和数据保障

本方案基于脱敏的信令数据,并以华南海鲜批发市场为例,实现包括疫情传染源的整体分析; 疑似人群活动区域识别;疫情态势溯源与推演

传染源整体分析

随着海鲜市场逐步停业整顿,自一月起流动人口有了明显的下降,1月10日之后几乎不再出现流动人口

华南海鲜批发市场被认为初期新冠病毒进行二次传播的高发区。我们基于信令数据,对华南海鲜市场周边的人口流动据做挖掘;找出华南海鲜批发市场人流变化与新冠早起趋势发展的潜在联系。

如图所示为十二月至一月底人口流动趋势的按日统计图,可以发现自一月份以来,随着华南海鲜市场的关停和疫情的升温,人流趋势明显下降。

华南海鲜市场人口流动指数(日)

我们将时间区间细化到小时,如图所示为华南海鲜批发市场十二月至一月底每小时人员驻留行为变动情况;工作日的人流波动高峰出现在上午11点前后与晚上19点前后(近午餐、晚餐)。而周末总体趋势比较平缓

华南海鲜人口流动指数(小时)

同时我们将相关华南海鲜市场相关新闻标注到了坐标轴上,可以更方便看到”黑天鹅“”对华南海鲜市场人流趋势的营销。 自12月15日起,开始陆续出现发生有华南海鲜市场接触史的患者, 而自1月起,海鲜市场逐步停业整顿,流动人口有了明显的下降

华南海鲜人口流动指数(小时)—— 新闻绑定

华南海鲜市场传播趋势溯源

我们基于重构的Word2Vec&Doc2Vec实现了华南海鲜周边用户移动模式挖掘,发现华南海鲜批发市场80%以上的人群,都来自于5公里范围内的区域,我们建议对5公里内地区的范围做重点排查,对超过5公里的特定区域做选择性排查

在探索了华南海鲜市场整体趋势变化的基础上,我们希望实现流入华南海鲜市场的用户群识别体,为新冠溯源提供数据基础。

轨迹移动模式挖掘

下面,我们将以挖掘武汉市民的移动模式为基础,实现对迁入与迁出华南海鲜市场群体的识别;我们通过对武汉市手机用户途径基站的时间序列数据, 以及每个基站的地理坐标信息编码,形成用户轨迹编码;同时原数据中的时间带有时分秒等信息, 为了保证每个位置具有较高的出现频率, 将时间信息聚合至每个小时整点。格式如下:

{ }

w为脱敏的用户标识,s为位置信息,t为每个小时点。基于Word2Vec 模型进行训练[1], 将得到每条位置点的向量化标识与相似度;基于Doc2vec对用户轨迹整体编码训练后,将得到用户轨迹间的相似度。整体方案如下图所示:

时空坐标及轨迹相似度方案

其中,我们采用用cosine距离来计算坐标与坐标,轨迹与轨迹的相似度:

\cos ({\bf t},{\bf e})= {{\bf t} {\bf e} \over \|{\bf t}\| \|{\bf e}\|} = \frac{ \sum_{i=1}^{n}{{\bf t}_i{\bf e}_i} }{ \sqrt{\sum_{i=1}^{n}{({\bf t}_i)^2}} \sqrt{\sum_{i=1}^{n}{({\bf e}_i)^2}} }

如图所示为Word2Vec/Doc2Vec 模型进行训练后用tensorborad对时空向量与轨迹向量的投影层(Projection Layer)做投射,如下图所示:

时空&轨迹向量

为更好进行时间与空间的推演,我们对经典的Word2vec和Doc2vec进行了重构,
在传统的Word2vec模型中,把每个时空点当做为类别标签,丢失了其数值的属性和信息。我们希望在Word2vec训练模型时,加入时间与空间的数值判断和比较,方便我们做时间与空间的推演[2]

我们只选取大于一定范围的时空坐标点放到滑动窗口中构建训练训练集,训练结束后,逐一将每个时空向量的相似度在top5的范围内的时空坐标点相连接,并投射至武汉地图平面,如下图所示:

相似时空点top5

传播溯源

接下来,我们分别按照空间与时间推演的方式,来看华南海鲜周边的用户流入情况,为新冠早期的传播溯源提供支持。

我们 将华南海鲜批发市场 作为终点,来看之前的一段时间内迁入情况,尝试发现新冠病毒最有可能是在哪些位置被带入华南海鲜批发市场 的,如图所示内圈为1公里范围,外圈为5公里范围:

华南海鲜市场流入状况

我们发现华南海鲜批发市场80%以上的人群,都来自于5公里范围内的区域——因此我们建议对5公里内地区的范围做重点排查,对超过5公里的特定区域做选择性排查

传播推演

基于上文提到对武汉市民移动模式挖掘的基础上,我们希望按照时间与空间的维度,挖掘出在华南海鲜市场发生过密切接触后的用户之后的去向,并从而对这些区域做重点防控

空间推演

空间维度上,汉口火车站,范湖地铁站,万达广场等都是华南海鲜市场人流迁徙的重点目标,省内的孝感,黄冈,黄石等,省际贵阳,洛阳,海口,南京都是华南海鲜市场人群流向的重点城市。

我们将观察人群的流出情况,与华南海鲜市场存在高度相似的时空坐标点如下图所示,华南海鲜市场的西南方向包括道路和汉口火车站,因此,时空坐标点的方向的趋势更加明显

华南海鲜市场周边流出状况.gif

我们限定与华南海鲜市场的距离超过300米,且具备强相关的位置,并标识poi信息,如图所示:

与华南海鲜市场强相关的poi.gif

汉口火车站,范湖地铁站,万达广场等都是华南海鲜市场人流迁徙的重点目标。

我们接下来预测最有可能从华南海鲜市场出发,去往其他城市的轨迹,如图所示为与华南海鲜市场具备较强相关度的外部省市, 省内包括孝感,黄冈,黄石等,省际包括贵阳,洛阳,海口,南京

华南海鲜市场跨地市的迁出状况.gif

时间推演

时间维度上,大部分在华南海鲜市场周边人群将在4-12小时之内离开并扩散;而武汉市内的武昌区,洪山区,江夏区等位于长江以南的位置,在12个小时内受影响相对较小;新冠携带者极有可能在12小时之内扩散到武汉市外的其他省市区域,

下面我们忽略空间维度,来观测随着时间t的推移,与华南海鲜市场具备较强时空相似度的区域s的强度及分布变化情况。如图所示为12个小时内时空点相关度变化,区域颜色越深标识相关度越强:

12小时的时间推演(强度)

可以看到随时间的推移,华南海鲜市场周边区域的相似度逐步变弱——大部分在华南海鲜市场主要的用户群在4-12小时之内离开并扩散

如图所示为12个小时内,时空点相关范围的变化:

12小时的时间推演(范围)

可以看出随时间推移,高相似度区域逐步扩散,特别是临近的机场,高速武汉周边卫星城逐步出现高相似度时空坐标。由此可见,武汉市内的武昌区,洪山区,江夏区等位于长江以南的位置,在12个小时内受影响相对较小;而在海鲜市场的被感染的新冠携带者极有可能在12小时之内扩散到武汉市外的其他省市区域

防控应用

除华南海鲜市场外,我们也在结合卫健委公开的确诊、疑似病例数据,计算出这些用户的移动模式,传播趋势。同时分析风险值较高区域,实现对城市、县域、街道、社区的风险预警,如图所示为我们以某个小区为例,通过对该位置用户移动的模式计算得到人口密度与人口流动情况:

WechatIMG466.png

进一步我们还可以基于该位置用户移动的模式,提供该小区的复工状况,人均在外时长等信息:

复工指数

此外,我们也在通过信令数大据面向公众用户提供健康码服务, 密切接触者查询;向政府部委提供行业复工指数等服务。在解决用户实际需求的同时,为政府部委提供科学精准的数据支撑和分析服务。后续我们将加持续信令大数据能力建设,进一步发挥信令大数据在疫情防控的价值。


  1. location2vec
    : a situation-aware representation for visual exploration of urban locations. ↩

  2. 一个基于基站轨迹数据的城市移动模式可视分析系统 ↩

你可能感兴趣的:(信令大数据实现新冠传播趋势溯源与推演)