一旦世界被数据化,就只有你想不到,而没有信息做不到的事情了。
受 访|周 涛 电子科技大学教授 大数据研究中心主任
采 访|周 琪
2009年,在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了一篇引人注目的论文,令公共卫生官员们和计算机科学家们感到震惊。
文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州,更关键的是,预测结果与官方数据的相关性高达97%。
和疾控中心一样,谷歌也能判断出流感是从哪里传播出来的,而且判断非常及时,不会像疾控中心那样,在流感爆发一两周之后才可以做到。
与习惯性滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示灯。
为什么是谷歌?谷歌是如何做到的?
谷歌每天都会收到来自全球超过30亿条的搜索指令,且保存了多年来所有的搜索记录,如此庞大的数据资源足以支撑和帮助它完成这项工作。
谷歌把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行了比较。计算机把检索词条在5亿个数学模型上进行测试之后,准确地找出了哪些是与流感传播最相关的词条。
其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌一样庞大的数据资源、处理能力和统计技术。
所以,2009年甲型H1N1流感爆发的时候,谷歌甚至不需要分发口腔试纸和联系医生——它的预测是建立在大数据基础之上的。
这是一种前所未有的方式,它揭示出一个真相,一旦世界被数据化,就只有你想不到,而没有信息做不到的事情了。
数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。
新冠疫情期间,大数据专家周涛主要做了两件事:一是估算新型冠状病毒传播初期的关键参数,为挖掘病毒的传播规律和趋势奠定基础;二是在2月10日后,面对学生、农民工、上班族等人口流动需求的压力,通过对包括人口迁移数据、社交媒体数据、传播初期的微观病例数据和病人移动轨迹数据来定量分析人口迁移对疫情传播的影响。
以下是《中欧商业评论》对周涛的访谈实录。
01
用大数据侦察病毒的传播规律和趋势
中欧商业评论(以下简称CBR):为什么最早做出对武汉当地感染人数预估的是海外团队?
周涛:我们早期估计基本再生数也是用的航空人口反推武汉感染人数,否则没有办法做计算。但是我们没有专门讨论武汉感染的人数。一是当时谈这个问题在国内比较敏感,对老百姓也不一定有好的导向,因为那个时间段不是重视不够,而是已经有些恐慌了。我一直认为面对传染病适度的恐慌不一定是坏事儿,但也不能太恐慌。二是海外团队估计的方法也非常不准确,只是一个极其简单的模型,当时样本量非常小,置信区间的上下界之间差了几十倍,其实参考价值很有限。
CBR:您从事的研究为挖掘病毒的传播规律和趋势奠定基础,可以和我们分享几个最重要的结论吗?
周涛:早期我们根据确诊病例数和“易感-潜伏-传染-康复/死亡”动力学模型,结合流行病学的一些关键参数(生成时间分布,潜伏时间分布等),估计了基本再生数R0,数值大约是3.0左右(文章发表在《中国循证医学杂志》上,具体细节大家可以看论文),说明这个疾病具有中高传染能力,可防可控,但是必须采用“确诊疑似全部入院收治,密切接触者和不明发热人员全部集中隔离”的手段才可能短期达到控制效果。这对于早期决策是有帮助的。
另外就是我们要通过不同地区感染比例(感染人员除以总人口)和过往人口流动性,对不同地区的往来人员进行风险评估,调整对外来人员的防控措施。现在这个分析进一步推广为对海外入境人员的防控措施。我这里不便于说国内外哪些地区风险最高,但实际上我们是掌握一个排序的。
小知识
基本再生数R0:指没有干预的情况下,在一个全部是易感人群的环境中平均一个患者可以传染的人数,用大白话说就是自由传播的情况下一个病人平均能感染多少人。能流行的疾病这个数目都会大于1,如果不大于1,这个疾病就传不开。
CBR:什么人在什么地方做什么事儿是最容易被感染的,这是所有人最关心的,大数据能精确地描绘出感染人群画像吗?
周涛:这是一个特别重要的问题,就是要判断通过医院、家庭、学校、工作场合、公共交通和社区其他渠道导致的传播比例分别是多少,这对阻断传播,以及复工复学和加强或放松小区隔离等策略也有重要的参考价值。
CBR:大数据可以预测拐点吗?
周涛:可以通过建立流行病传播动力学模型,通过真实数据,分阶段(不同的响应措施对应不同的参数组)拟合模型参数,再进行预测。对于COVID-19的预测精度是赶不上流感的,因为针对流感我们的控制策略比较稳定,但是COVID-19可能会因为一些重要政策的改变,根本上影响了流行病的传播。不过,预测结果能够显示如果沿袭当前策略大体会付出多少时间和患者人数的代价。中国防控得力,疾病消亡的速度应该超过了所有基于早期数据的预测。
02
用大数据指导、评估各地防疫政策
CBR:大数据在阻断传播的措施建议上发挥了怎样的作用?
周涛:对于湖北省外而言,这次COVID-19流行要经历三阶段的防控。
第一个阶段主要是防止从湖北和其他疫情严重区域流入感染人员的再次传播。老百姓比较配合,运营商也提供了很多数据,帮助我们快速定位疫情严重区域返回的人员。
第二个阶段是防止本地社区传播。这个阶段非常成功,湖北以外的省份基本上没有传播起来。因为采用措施的力度很大,大数据主要起到监控作用,没有形成特别的政策建议。
第三个阶段比较复杂,就是防止反复。这个时候因为复学复工逐步推行,社会秩序逐步恢复,大量人员流动起来,人与人接触变得常见。除了继续对流入人口(现在主要关注境外)进行健康监控外,需要有大数据的手段挖掘密切接触。以前在第二阶段,大家一般不出门,偶尔出一次门,去过哪些地方见过哪些人都能记住,现在就比较困难了,需要全新的技术手段。
我所在的成都市大数据股份有限公司承担了一项重要工作,开发了一个公共场所的扫码系统——“天府健康通扫码记”。不是每个人亮出一个健康码,而是在三类场所张贴二维码:
(1)公共交通(公交车、地铁站、出租车等);(2)人员聚集区域(商场、超市、饭店、楼宇、产业园区等);(3)其他特别需要关注的地方(药店)。
每一个地方都有一个二维码,老百姓通过微信扫一扫进行签到,和健康码打通。一旦发现确诊或疑似患者,立刻就能找到和他们利用相同交通工具或在相同时空驻留的密切接触者。对于流行病来说,这是一个绝佳的工具,因为可以马上找到密切接触者。进一步地,这个工具未来还可以用来分析不同场所产生的人员接触数量,从而为防控做建议,也是未来防疫体系中可能发挥重大作用的一个环节。
当然,我们更希望这个系统永远默默工作,不产生任何建议。
CBR:如何用大数据评估防疫政策的效果?
周涛:我们采用了两种方式评估政策的效果。
一是计算有效再生数Rt,看不同省份下降到1以下的时间。排名前10的省市区是:福建、辽宁、云南、上海、浙江、重庆、四川、北京、甘肃、广东、广西、湖南、陕西(排名有并列;西藏和青海确诊人员太少,无法计算)。
二是武汉市外因为输入病例占比较大的比例,我们可以通过低阶近似,基于各地输入人口数和常住人口数,直接计算各地防控强度。其中武汉流入人口数量前50名的城市中,防控工作最好的10个城市排名是:石家庄、重庆、成都、上海、北京、洛阳、周口、郑州、南阳、长沙。
这个和大家心中的排名不一定一致。举个例子,好像重庆、北京感染了很多人,是不是做得不好。这个想法不对的,因为武汉封城前去重庆的人非常多,其中很多重庆确诊人员是输入病例,防控工作好不好不仅仅是看确诊人数或者感染人口比例,要看本地常住人口数和疫区输入人口数。
小知识
有效再生数Rt:指t时刻开始出现症状的一个患者平均能够感染的人数。
有效再生数可以用来观察传染病控制的情况,特别是政府能否通过防控措施,让有效再生数降到1以下,甚至到一个非常低的水平。
CBR:您的团队一直在跟踪有效再生数,最新的数值是多少?
周涛:有效再生数随时间变化。1月底之前全国各省市区下降到1以下(也就是传播可控,逐渐衰减),2月第一周湖北省下降到1以下,2月中旬全国均值下降到0.2以下。2月20日全国均值下降到0.1以下,进入消亡态。现在接近0。
03
未来,大数据需要和流行病学更加深度地结合
CBR:目前在美国有一个基于数据驱动的个体流行病仿真实验平台,这个平台有什么作用?
周涛:美国流行病动力学仿真系统将全球划成了25公里乘以25公里的若干网格,每个格子里面的人口密度,人口结构,家庭结构,学校和企业规模分布数据都有,还有网格间的人口流动数据(美国最准确,其他地方数据质量参差不齐)。因此可以建立一个网络传播模型,每个节点就是一个网格。网格内部还有更精细的网络传播模型,每一个节点是一个人。有了这样的模型,就能比较准确地预测疫情传播趋势,量化人员隔离、交通限制、停工停学等不同防控措施的效果。
CBR:建立这个平台的难点是什么?
周涛:我们希望在中国做一套类似的仿真系统,可以针对已知和未知的流行病,结合流行病传播的动力学机制和人口结构与流动、接触模式,精确刻画传染病的流行。其中最大的难点是采集这些数据并且保持高精度的实时更新。举个例子,因为不同年龄段的人对病毒易感性不同,我们需要知道不同年龄段人接触的频度,例如30岁的人和40岁的人接触频度。还比如在不同场所出现的密切接触的数量和密度等等。获得这些数据需要多方面配合的长期努力。
部分内容摘自周涛译作《大数据时代》
相关推荐
—END—