浅谈大数据在抗疫中的应用和启示
一、概述
手机扫描健康码,社区、乡村工作人员精准排查来往人员;在机场、码头、车站,用大数据实现旅客行踪可追溯;实时疫情地图将疫情数据的空间特征、时间特征和数量特征进行可视化表达……新冠肺炎疫情发生以来,大数据、云计算、人工智能等新一代信息技术加速与交通、医疗、教育、金融等领域深度融合,让疫情防控的组织和执行更加高效,成为战“疫”的强有力武器。从疫情信息统计分析,到流动人员健康监测、确诊病例追踪,再到疫情态势研判、预测,大数据技术助力筑牢疫情防控网,为科学防控、复工复产、民生保障等提供了有力支撑。
图1:科技公司积极参与到抗疫行动中
资料来源:IDC中国,2020
二、大数据在抗疫中的应用
1、构建知识图谱,追踪传播路径
大数据技术可以梳理感染者的移动轨迹,追踪人群接触史,建立知识图谱,为精准定位疫情传播路径,防控疫情扩散等方面提供重要信息。
追踪移动轨迹、建立知识图谱,已经是大数据领域比较成熟的技术。位置数据方面,除了航空、铁路、公路、轮渡等交通部门统计的出行数据外,在用户授权的前提下,电信运营商可以基于手机信令等包含地理位置和时间戳信息的数据有效定位用户的手机位置。互联网企业也可以通过APP授权调用用户手机位置数据。此外,地图、打车、旅游等APP提供的移动出行服务,电商、外卖平台等APP内的送货地址数据,以及银行移动支付的IP、经纬度数据等都可以作为位置数据的有效补充。知识图谱则可通过各类社交平台、通信网络、通话记录、转账记录等数据构建。
图2:疫情传播知识图谱
资料来源:杜娟.新冠肺炎疫情防控中,大数据在发挥什么作用?[J].大数据时代,2020(02):6-11.
将手机用户不同时间段的授权位置数据进行纵向串联,能够有效绘制出移动轨迹。这类个体数据,可以追踪被感染者的疾病传播路径、定位感染源,配合知识图谱可以锁定被感染者曾经接触过的人群,以便及时采取隔离、治疗等防控措施,避免疫情更大范围扩散。
将同一时点不同个体的位置数据进行横向整合,就能形成群体数据。利用数据分析、数据挖掘等技术能够准确刻画跨地域漫入、漫出的不同类别人员的流动方向、动态及规模。
如果在百度迁徙地图中输入“武汉”这个城市,从1月10日春运大幕拉开,到1月22日春运第一阶段高潮将要落下的时间点,从武汉(起始地)流向全国各地的城市客流量排名,与各地新型肺炎病例被发现的数量与时间早晚,有着一定的正相关关系。
图3:1月15日从武汉流向全国各城市人员分布
资料来源:百度地图慧眼
利用群体位置数据制作疫情期间的人口迁徙地图,可据此观察各城市的人口流入、流出状况,尤其是重点疫区人口流出方向。这些数据有利于定位疫情输出的主要区域、预测地区疫情发展态势、预测地区潜在染病人群,为疾病防控部门及地区政府有针对性地出台交通管制措施提供科学支持。
2、大数据构建疫情发展模型
疫情期间,大众密切关注疫情的传播态势。疫情还会传播多久?感染者还会大幅增加吗?哪里感染风险高?何时能够进入安全期?要解决这些问题,需要找出关键影响因素、分析疫情传播特征、搭建疫情发展模型,这其中大数据能够发挥关键作用。
除了医疗数据外,疫情传播往往还受到气候、温度、湿度、地质、交通、社会行为、城市卫生等多维度因素影响。大数据技术的发展使得这些影响因素均能以数据形态展示,同时使得多维度、大规模的数据处理成为可能。利用大数据实现上万量级的影响因子建模,极大地丰富了疫情发展模型的分析维度。
SIR模型是传染病模型中经典的模型,其中S表示易感者(Susceptible),I表示感染者(Infective),R表示移除者(Removal)。
传播过程大致如下:最初所有的节点都处于易感染状态,然后部分节点接触到信息后,变成感染状态,这些感染状态的节点试着去感染其他易感染状态的节点,或者进入移除状态。移除状态,即免疫,处于移除状态的节点不再参与信息的传播。
图4:SIR模型传播过程
假设易感染者,感染者,移出者之和是个恒量即[if !msEquation][endif]。病人康复后具有免疫力,人与人之间有相同的接触率:
[if !msEquation][endif]
其中α,β都是以时间为变量的参数,α(t)为日感染率,β(t)为日移出率。参考多方资料后,假设α=0.0000003,β=0.0077266,I(0)=1,S(0)=1000000(其中感染率a和移出率β都是根据官方所提供的数据估算出,武汉市人口共有一千万,假设十分之一受到此次疫情的影响)。
图5:湖北省疫情情况统计表
资料来源:湖北省卫健委
仿真结果可以看到,21天到25天的数据,也就是截止到1月26日24时,预测的数据都是符合实际情况的。但是随着疫情的扩张,感染率势必降低,移出率势必提高。因此,感染率α和移出率β不会是一个常数。另外该模型过于精简,将真实情况过度理想化,还有很多需要改进的地方。
图6:湖北省疫情仿真预测情况
如果利用采集到的出行轨迹流动信息、社交信息、消费数据、暴露接触史等海量数据,借助传播动力学模型、动态感染模型、回归模型等大数据分析技术,就可以更为准确的预测疫情的发展情况,并对疫情的峰值拐点等大态势进行判断。另外还可以根据病患确诊顺序和密切接触人员等信息定位时空碰撞点,进而推算出疾病传播路径,为传染病溯源分析提供理论依据。
3、大数据挖掘疫情舆论
疫情面前,疏解民众的焦虑心理至关重要。由于信息获取方式、生活方式的改变,搜索大数据已成为疫情之下了解民意的重要载体,每一条信息背后的点击、每一次搜索,都精准揭示了民众的需求与问题。
疫情爆发的初始阶段,“口罩”、“酒精”等搜索增多,而疫区“心理疏导”、“咽喉痛”搜索量激增74倍。随着武汉封城,生鲜果蔬、防护物资、食品粮油、药品等方面成为武汉及湖北人民搜索的热点,这也提醒当地政府需要保证相关物资的供应。
图7:“心理疏导”成为百度搜索热点
数据来源:百度、CCTV
图8:2月11日-2月26日武汉市民部分搜索关键词
数据来源:百度、CCTV
随着疫情防控形势好转,"樱花"相关内容搜索热度超过"口罩",反映出人们心理需求的变化:已经迫不及待地期盼走出家门拥抱春天。
图9:“樱花”成为百度搜索热点
数据来源:百度、CCTV
当下,复工复产的步伐正在加速。如何利用大数据,为各行各业和政府部门的决策提供参考,也至关重要。搜索大数据反映了国内企业恢复生产的整体情况,给各行业有序筹备复工提供了可供参考的数据样本。
图10:复工复产新焦点
数据来源:百度、CCTV
在庞杂纷繁的信息环境中,越是全社会聚焦的重大突发事件,主动搜索的模式对于民众获取知识与信息也就显得越发重要。这一点在此次疫情中表现得也十分明显。搜索大数据样本体量不仅足够大,还更加多元。海量用户产生的真实搜索请求,潜藏着极具挖掘价值的数据金矿。因此,无论是疫情走势判断、居民的日常生活以及企业的复工情况,某种程度上都离不开搜索的支撑。
众多互联网平台都在关注疫情,为何只有搜索能探测民意与舆论走向?当然,这其中最主要的原因还在于搜索大数据能收集到海量的、具备分析价值的真实用户的意愿与行为。
关于真实用户需求,有句话是“客户不是要买电钻,而是要买墙上的那个洞。”我们从啤酒与尿布的搭配销售故事到口红效应(因经济萧条而导致口红大卖),都能看到大数据的威力。
2009年甲型H1N1流感在美国爆发的时候,谷歌通过观察人们在网上的搜索记录完成了冬季流感预测,它所测算出数据也成为美国公共卫生机构所能获取到的非常有价值的信息,并且成为流感防控的一个更有效、更及时的指示标。
谷歌的行为本质上是平台通过用户行为精准挖掘探测到了其真实需求。对应到疫情下的新闻资讯平台,短视频平台以及社交媒体,网民“众声喧哗”的背后,泥沙俱下,大量无用的社交信息充斥,聒噪中夹杂着水军与机器的操纵,信息过载成为常态,它并不能真实的反应用户需求与获得真实民意反馈。而相对社交媒体等平台的聒噪,搜索的背后是大量的用户主动求证行为,用户此时在搜什么,反应了用户在想什么,这些数据反映了人们的关切点,能更准确、及时地反应用户真实意愿。
搜索像一面镜子,能映照出民众最迫切的需求,利用大数据处理和分析手段将有价值的信息从不断增长的海量数据中提取出来。通过对民意的洞察,可以提供一定的数据决策价值,输出给地方政府与机构、民众所用,做到“取之于民,用之于民”。
三、启示
1、大数据可用于业务场景分析与决策
疫情期间大数据在建立知识图谱、疫情地图、预测模型等方面起到了关键作用。大数据同样可以运用到银行业务中,从而更好的表达、分析金融业务场景的交易全貌,帮助银行进行分析与决策。
(1)信贷领域的重点是获客、身份验证、以及授信环节。获客需要建立用户画像,追踪用户的完整生命周期;身份验证即通过活体识别、OCR等技术进行申请人的验证的问题,任务关联分析需要图关联技术,找出任务知识图谱;授信环节更要汇聚多方数据源,通过多维度历史数据进行建模并取得风险定价,输出信用分给金融机构。
(2)理财领域的重点是营销获客和智能投顾。营销与信贷类似,需要建立全面完整的用户画像,覆盖完整的用户生命周期,才能做到真正的智能营销、获客;智能投顾需要KYC和投借匹配,重点分析用户风险等级及偏好,并进行KYC与KYP结合,进行智能匹配。
(3)支付领域的核心是交易反欺诈,需要通过各种技术建立交易反欺诈引擎,并根据交易数据进行反欺诈引擎模型优化。
2、大数据可用于服务优化
(1)舆情分析:银行可以通过爬虫技术,抓取社区、论坛等外部媒体上关于银行以及银行产品和服务的相关信息,并对信息进行正负面判断,尤其是掌握银行以及银行产品和服务的负面信息,及时发现和处理问题;对于正面信息,可以加以总结并继续强化。同时,银行也可以抓取同行业的银行正负面信息,及时了解同行做的好的方面,以作为自身业务优化的借鉴。
(2)市场和渠道分析优化。通过大数据,银行可以监控不同市场推广渠道尤其是网络渠道推广的质量,从而进行合作渠道的调整和优化。同时,也可以分析哪些渠道更适合推广哪类银行产品或者服务,从而进行渠道推广策略的优化。
(3)产品和服务优化:银行可以将客户行为转化为信息流,并从中分析客户的个性特征和风险偏好,更深层次地理解客户的习惯,智能化分析和预测客户需求,从而进行产品创新和服务优化。比如通过对还款数据挖掘比较区分优质客户,根据客户还款数额的差别,提供差异化的金融产品和服务方式。
3、数据能力是运用大数据的基础
良好和丰富的数据是开展疫情防控应用的基础。传统卫生数据的采集起点通常是基层的社区卫生中心,通过社区人员手工填报,经历区卫健委、市卫健委,最终汇集至省卫健委和国家卫健委。这种采集方式在大数据量面前暴露出了一些弊端。一方面增加了基层数据采集工作人员的负担,降低了数据汇集的效率,另一方面难以在数据源头快速核验数据的正确性,增加了后期数据质量管理的成本。
在疫情防控中也存在数据分散割裂、流通不足的问题。例如运营商各省级公司之间相对独立,数据各自保管存储,对数据的认知角度也截然不同,最终导致数据之间难以互通,形成孤岛。这样造成的后果就是每一个城市都有自己的健康码,如果去其他城市就要面临无法健康码互认的问题。不打通这些数据,大数据的价值将非常难挖掘,只有不同数据的关联和整合才能更好的发挥大数据的优势。