环境与健康系列(十五)——以物理机制和数据双驱动构建因果图网络模型(上篇)

语言会影响大脑对世界的看法。如果你无法向别人清晰地描述你的方案,那肯定不是一个好方案。因此本文供交流反馈使用,共计约8000字,读完约需要20分钟。本文同步更新于GitHub博客主页: https://limin-feng1993.github.io/.

1. 背景介绍

1.1 见相非相

  对于数据科学家来说,世界是黑白色的,见相非相。即使是最低水平的程序员,他观察事物时也要必须看到“骨相”而不是“皮相”,才能看透事物本质,理清做事的逻辑,从而写出优雅的代码来。

  在这纷纷扰扰的大千世界中,那么我们该怎么用“X光”看透骨相、得到科学规律呢?数学家通过已知的公理,可以推导出新的定理,也就是演绎推理的三段论 (前提、规则、结论)。但是,并非所有的对自然和社会规律感兴趣的人都是数学家。人类文明史上,首先是通过观察性实验 (observation),例如玻璃的发明、光学仪器的发展,让列文虎克能通过显微镜发现了细菌,伽利略通过望远镜发现了木星,从而使科学脱离了基督教会的控制。通过观测得到的原始数据进行归纳,得出一般的规律,称为归纳推理。演绎和归纳都属于形式逻辑。

  在形式逻辑的三段论中,推理是单向的,前提和结果不能反过来。例如在多次观测实验中,气象学家观察到气压计的读数下降和积雨云出现后不久,风暴来临,故得出结论是风暴是低气压中心。学者还知道人为迫使气压计读数下降对风暴来临的概率并不会产生影响。

  曾经有位业界人士(@邹晨)说过一句话:西方真正意义上比我们先进的技术只有一门,那就是测量技术。联想到中国缺芯片之痛,诚如斯言。测量性实验是一切科技进步的基础。通过观测得到的数据解析出客观世界的规律,从而得以解释现实、预测未来,是花费大量的人力物力进行观测实验的最终目标。

1.2 自然本相

  科学研究是看常人看到的,想常人想不到的。信息时代,观测得到的数据量非常大,有些甚至是雷同,但不一样的是怎样取舍、整合、解读,用一根什么样的线把他们穿起来,从而接近事物的本质,还原事物的特征。

  自然和社会系统的运行机制都非常复杂。例如大气圈这个物理系统,将其中的每一个气体分子的运动状态随着时间的变化都表示出来,是一个不可能完成的任务。但是复杂系统具有尺度分离的特征,宏观尺度上的参数例如压力、温度、密度、可压缩性等是可以被测量的,而微观尺度上的数以亿计的个气体分子的运动是难以确定的。由于尺度分离特性,我们可以分别讨论一个系统的微观层次和宏观层次。例如对于机械系统,在宏观上我们用牛顿力学来分析它,在微观上用热力学来进行讨论。

  对复杂系统的动力学过程进行建模,摈弃微观视角上的热力学,并将其视为随机过程交给统计物理学,是权衡利弊 (Trade-off) 后的选择。由于热力学较为复杂,在微观上跟分子的运动状态有关。但是我们关心的问题往往在宏观层面。一个系统的质量、能量等属性,与人类的利益密切相关,例如降水量、流体中的物质浓度、风能等。

1.3 道法自然

  科学研究的根本目标是把知识编织成一张相互关联的网络,在这个过程中加入了各式注脚和同行审议。对于科学来说,独立事实的价值微乎其微,哪怕它在自己的世界中能讲得通,例如伪科学和超科学,就像是没有和已有知识网络相连的孤立节点。至于宗教,它和科学的区别在于后者能承认自己的某些网络节点是错的。让知识永葆活力的唯一办法是让它牢牢嵌入到原有的知识网络中,与其他节点相连、融合、拓展和应用。

 在信息时代,“知识”这个词的定义和以前相比发生了很大的变化。广义上,文字、数学公式、物理定律、化学反应式、乐符、画作、雕像等等,本质都是知识的其中一种表示方式,都可以被储存在二进制的计算机中。所以,知识 = 结构化的数据。如果能通过一个特殊的方法将所有知识有结构地组织起来,那么就会对人类知识的范围和界限有更清晰地视野。目前计算机科学领域,尤其是人工智能AI技术,正在把各个学科的知识和数据整合起来并标准化。

  现如今蓬勃发展的人工智能AI技术,其终极目标是能像人脑一样进行思考。人脑神经系统是一个并行的非线性信息处理系统,能将声音、视觉等信号经过多层的编码,从最原始的低层特征不断加工、抽象,最终得到原始信号的语义表示。例如,一个5岁的小孩,通过多次发现,每次下完雨后,地面都是湿的,于是他得出一个思维模型:下雨会使土壤变湿。这就是大脑通过观察外部现象而在内部形成知识的机理。人工智能系统也是一样。首先通过观测实验,在一个复杂系统中得到足量的数据,然后分析系统内组分的行为,再输入到AI算法中,例如神经网络,得出理论模型。如下图:

利用观测数据构建复杂系统模型的基本流程

  因此,神经网络也是广义上的一种知识表示形式。在人工神经网络中,简单的人工节点,称作神经元 (neurons),连接在一起形成一个类似生物神经网络的网状结构,例如前馈网络和双向反馈网络。但是这种结构是根据多个自变量预测因变量的模型,也就是由X推导Y。而在复杂的物理系统中,因果关系非常复杂,变量之间往往相互作用。这个时候最佳的知识表示方式不是神经网络,而是图网络结构。它可以描述客观实体的状态和相互之间的关系,每一个实体可以被赋予若干个属性。实体和实体之间有很多关系,每一个关系基本上可以理解为是一个事实。这符合大脑对客观世界的描述:拓扑结构。

图网络是一种拓扑结构。

2. 方法论

  预测大气中的物质状态,例如预测空气污染物浓度,大致可以分为基于网格的方法和基于图结构的方法。基于网格的方法的基本思路是将监测站测量到的物质浓度数插值到均匀分布的网格上,然后模拟网格之间的空间相关性。但是,由于监测站点在城乡分布不均匀,插值会引入计算误差。相比之下,基于图的模型避开了这个问题,因为监测站点在图结构中保持其原有的分布。

2.1 内卷与外在强迫

  天气系统是浅薄系统,影响人类生存的天气现象基本上发生在5000米高度以下。而大气又是牛顿粘性流体,当缺乏外界的强迫力驱动一个粘滞性较大的浅薄系统时,就会出现稳定性的层级结构。在内卷这一点上自然系统和社会系统是相同的。在近地面大气中形成的层级结构称之为边界层,高度在几百米到2公里之间。边界层内,外界强迫力和能量输入小于地表的摩擦所耗散的能量,物质的各类振荡都是阻尼振荡,气块受到扰动后很快恢复原位。此时物质的移动速度较慢,浓度在近地面累积。

大气层中的物理过程非常复杂。

  稳定层级结构上方的空气,称为自由大气 (能跨越阶层当然自由了)。自由大气各个高度的气团流向比较稳定,而边界层下 (大致在850 hP等压面高度以下) 的气流则较为紊乱,这是因为地表摩擦力的存在。自由大气中流向流速最明显的气流称为引导气流,顾名思义其对低层天气系统运动有一定引导作用。大致类似于军队中的带头先锋作用。理论计算时引导气流的高度在常选择在600 hPa等压面附近,但是实际工作中常用500 hPa 等压面 (夏季, 约5000米高度) 或者 700 hPa 等压面 (冬季, 约3000米高度) 的气流作为引导气流。当引导气流较强时,上层高空气流“胁迫”地面的空气进行水平运动,将动能输送至地面空气,发生的是空气污染物的远距离平流输送,污染物浓度骤降,而垂直方向的湍流扩散作用可以忽略。

自由大气顶层的引导气流,其流向比较稳定。而850 hP等压面高度以下的气流则较为紊乱,这是因为地表摩擦力的存在。

  引导气流分为经向引导气流和纬向引导气流。经向的引导气流如极地涡旋。近10年来影响我国的寒潮中,有102次是亚洲上空出现持久极涡,有6次强寒潮过程都与极涡在亚洲上空的位置明显偏南相关。

极地涡旋的分解。

  引导气流除了经向的极涡之外,还有纬向西风。纬向引导气流本质是行星长波的波动,波长大于1000 km,最长可接近地球半径。当经过某地区的行星长波的相位是波谷时,上方形成了一个气旋,导致气流上升,引导近地面的物质扩散;当经过的行星长波的相位是波峰时,上方形成的反气旋导致下沉气流,下沉空气的绝热增温和地表的辐射冷却产生了逆温层,引导近地面的物质累积。

行星长波的不同相位代表不同的引导气流。来源:Zhang Y, Fan J, Chen X, Ashkenazy Y, Havlin S (2019) Significant Impact of Rossby Waves on Air Pollution Detected by Network Analysis Geophysical Research Letters 46:12476-12485.

2.2 物理机制驱动:总能量守恒

  本文选择500 hPa 等压面高度的气流作为引导气流,这是因为1000-500 hPa 等压面 (0-5000米高度) 的位势高度(gh的垂向积分)之差直接决定于空气密度和气柱温度,可以很好地反映气流的特征。一个地区上方的气柱,温度越高,密度越小膨胀,位势高度之差越大。位势高度是假想高度,指与大气中某一点的重力位势 (单位质量的空气相对于平均海平面的势能) 成正比的高度,单位为位势米。500 hPa 等压面的位势高度分布是判定天气形势的重要依据。

500 hPa 等压面的位势高度是判定天气形势的重要依据。

  物质的质量分布变化的本质原因是能量变化。能量以三种形式存在于大气中:位能、动能、内能。位能与内能常合并讨论,称之为总位能 (全势能)。全势能只有一小部分才会转变为动能,称为有效位能,是动能唯一的“源”。有效位能大约占总位能的1%。动能在数量上比位能小2-3个数量级,但是动能是驱动天气现象的重要因素,因此总位能与动能之间的转换是天气系统变化的基本机理。例如早上,中层大气较干,近地面气块抬升后无法将位能转化为动能,容易发生近地面的物质运动速度较慢而累积,因此大部分城市地面空气污染物浓度最高时刻一般发生早上7-8时。

总位能与动能之间的转换是天气系统变化的基本机理。例如早晨时,中层大气较干,近地面气块抬升后无法将位能转化为动能。

总位能 (全势能):一个自海平面向上延伸到大气顶的空气柱的位能和内能之和。 位能(机械能)与内能(热力学能)本来是两个不相关的概念,然而大气有其特殊性。在静力平衡条件假设下,在一个垂直气柱中,位能和内能是成正比的。气柱从外部接受到热量,增温以后就会垂直膨胀,这样,重力位能就增加,内能作为热能当然也增加。位能将增加20%,内能将增加71%,因此没有必要把位能和内能分开讨论,而是把它们合并在一起成为总位能。全球平均而言,位能是内能的40%,亦即在总位能中,内能大约占70%,位能30%。潜热能可达总位能的20%,表示的是内能的增加量或减少量。

  在总能量方程中,动能、位能、内能、潜热能之和守恒。 自由大气之上的大尺度气流运动以地转风为主,湍粘性力可以忽略,也可忽略潜热带来的内能变化,所以我们假设引导气流中湿静力能守恒,其总能量的变化约等于动能的变化。在引导气流中,单位质量的气团动能+位能守恒,有:

引导气流中总能量守恒。

  总能量一般使用风温湿压等观测得到的变量来计算。需要估算的量是气团密度。由大气压力随海拔高度而变化, 密度 = P*29/(8314T), 其中 P是气压,29是空气的平均分子量g/mol,T是温度,单位是K, 空气密度在标准状况 (0℃,101 KPa) 下为1.29 g/L。

2.3 数据驱动: 贝叶斯推断网络

  复杂系统的特点之一是存在非线性的相互影响,由此产生相变和混沌现象。具体来说,两个变量在很长一段时间内,看起来是高度相关的,但可能突然就变得毫不相关了。如果没有意识到这一点,就容易根据观察到的局部相关性,判断变量之间存在伪相关关系。另外还有滞后、隐性相关,有些因子需要耦合才会发生作用。在大数据中,背景条件太复杂,因果识别本身变得极其困难。很多时候使用已知的理论物理模型可能还不如忽略背景直接通过数据分析的效果好。

复杂系统中,因果关系往往非常复杂。

  既然单纯通过物理模型很难完全还原复杂的因果关系,那么就需要辅助以数据统计方法,才能拟补物理模型的缺陷。贝叶斯推断是现今最广为使用的纯数据归纳推理方法。贝叶斯推断在时间序列分析中格外的重要,是一个非参数化的统计概率方法。贝叶斯推断尤其适合满足同质性假设的小数据,例如高斯分布。许多所谓的大数据,其实就是就是小数据的集合,所以数据量越大,贝叶斯方法的预测能力越高。

  微软公司研发的doWhy程序包,集成了贝叶斯推断网络Bayesian Network ,它是一种概率图模型 (Probabilistic Graphical Model),也是有向无环图模型 (directed acyclic graphical model)。概率图模型用节点表示观测到的变量,用隐含结点表示潜在的知识,用边来描述节点之间的相互关系,最后基于这样的关系图获得一个概率分布。有因果关系的变量用箭头来连接。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因”,另一个是“果”,两节点就会产生一个条件概率值。

  贝叶斯网络只是图网络的一种。图网络节点之间的联系可以自定义,可以是统计模型例如贝叶斯推断,也可以是物理定律。贝叶斯推断和物理模型的相同点是要有先验偏见,亦即不能假设所有变量之间都有联系。不同点是前者只适用用于马尔洛夫过程 (完全随机)。统计物理中的马尔洛夫过程是指粒子的未来运动状态只取决于当下, 与历史状态无关。

朴素贝叶斯公式。

3. 结果分析

3.1 聚类分析

  首先,为了验证 2.2 章节中物理机制假设的合理性,我们对500 hPa 等压面 (约5000米高度) 的重力势能 (ρgh) 与地面细颗粒物PM2.5浓度做了一个KNN聚类分析,如下图。观测性实验活动的地址在中国科学院大气物理研究所 (IAP),选取了2017年全年8000多个小时值。在500hpa的等压面上的位势高度分布中,位势较高的地区,亦即等高面上气压较高的地区。从聚类结果可以看出,高压天气系统并不一定会导致污染事件 (偏右侧数据)。冷高压会带来寒潮,降低近地面颗粒物浓度。而暖高压会带来静稳天气,造成地面物质的质量累积。另外,大尺度环流与局地小尺度的空气污染有时关联不明显,存在滞后性。尽管如此,我们还是能够发现规律:在强引导气流导致的低压天气系统下,PM2.5浓度高值出现的频率下降 (偏左侧数据)。

500 hPa高度的重力势能与地面颗粒物浓度的聚类分析。

  强引导气流的动能 (1/2ρv2) 也较大。通过500 hPa高度的动能与地面颗粒物浓度的聚类分析可以看出,在弱引导气流下,动能较小,风速较小,PM2.5浓度出现高值的频率增加 (偏左侧数据)。

500 hPa高度的动能与地面颗粒物浓度的聚类分析。

  再看边界层高度BLH与PM2.5浓度之间的关系。当边界层高度在1500-2000 m时,仍然出现颗粒物浓度高值,说明了远距离输送的贡献。当边界层高度小于500米时,物质的混合过程集中在近地面,PM2.5浓度高值出现的频率增加。

边界层高度小时值与颗粒物浓度小时值之间的关系分类。

  这个聚类结果是符合物理常识的。下图是2013-2018年北京市月平均边界层高度和月平均PM2.5浓度的关系,可以看出,当边界层高度小于500米时,PM2.5浓度随着边界层高度的下降而线性增加,图中线性关系为: y = -0.41x + 270, R² = 0.56。

当边界层高度小于500米时,PM2.5浓度随着边界层高度的下降而线性增加,图中线性关系为: y = -0.41x + 270, R² = 0.56。

  下图是850 hPa等压面高度的重力位势与地面颗粒物PM2.5浓度浓度的聚类分析。结果与500 hPa等压面高度类似。850 hPa等压面高度大致位于边界层顶部。在高压系统下,行星长波的波峰过境,出现下沉气流,绝热增温造成逆温层,有利于近地面物质的积聚。

850 hPa高度的重力势能与地面颗粒物浓度的聚类分析。

3.2 统计推断

  利用随机森林算法,也就是决策树模型确定参数敏感性,发现决策树模型不能很好的模拟污染物浓度。例如决策树对臭氧的预测存在黑箱。在决策树中,影响臭氧浓度最重要三个因子是地面温度、地面气压、边界层高度,能解释50%以上的臭氧浓度变化。一种可能的解释是低压系统下,边界层高度较高,高空光化学反应生成的臭氧经过湍流扩散至地面。

随机森林决策树确定参数敏感性。

  抛开从观测数据进行归纳推理不谈,从演绎推理的角度来看,引导气流本身能带来污染物的远距离传输,故其对地面颗粒物PM2.5浓度的影响为正,但是引导气流的动量下传到边界层,又有利于污染物的扩散,从这个角度来看其对地面颗粒物PM2.5浓度的影响为负。因此,引导气流的作用与它过境某个地区的时机有关。当引导气流较强时,其削弱了湍流扩散作用,边界层高度较低或者可以近似认为不存在,近地面空气中以地转风为主,平流对物质的扩散作用占据主导。

  对34个气象和污染物变量归一化到[0, 1]区间无量纲化之后, 利用doWhy程序包建立贝叶斯推断图网络,能看出所有的变量相互之间都或多或少存在联系,这印证了传统的数值模式中“一个大气”的设计理念。

贝叶斯推断图网络。

  首先,我们假设850 hPa等压面高度的动能对地面颗粒物PM2.5浓度有因果性。条件概率公式如下:

因果关系假设:850 hPa高度的动能对地面颗粒物的影响。

  根据显著性检验方法所得到的P 值,一般以p < 0.05 为有统计学差异, p<0.01 为有显著统计学差异,p<0.001为有极其显著的统计学差异。统计推断显示,850 hPa等压面高度的动能对地面颗粒物PM2.5浓度的影响是统计显著的,p值< 0.001,亦即有因果性。

850 hPa高度的动能对地面颗粒物浓度的影响是统计显著的。

  由上图可知,850 hPa等压面高度的动能对地面颗粒物PM2.5浓度有正面影响,因果效应 Causal Effect 为42 µg/m3。亦即边界层顶部的气流动能越大,地面颗粒物浓度越高。这印证了 3.1 章节聚类分析得出的外来传输的重要性,外来传输的影响为42 µg/m3

  然后我们假设因果关系:850 hPa高度的总能量TE,也就是动能和势能之和,对地面颗粒物的有重要影响。条件概率公式如下:

因果关系假设:850 hPa高度的总能量,也就是动能和势能之和,对地面颗粒物的影响。

  统计推断结果显示,850 hPa等压面高度的总能量对地面颗粒物浓度的影响是统计显著的,p值为0.009。

850 hPa等压面高度的总能量对地面颗粒物浓度的影响是统计显著的。

  850 hPa等压面高度,也就是1500米高度左右边界层顶的动能和重力势能之和对地面颗粒物PM2.5浓度有正面影响,因果效应为+124 µg/m3。而5000米高度的动能和势能之和对地面颗粒物浓度影响不显著, p值为0.26,亦即没有因果性。

5000米高度的动能和势能之和对地面颗粒物浓度影响不显著。P值> 0.05

  下面我们来验证不同高度的消光系数对地面颗粒物PM2.5浓度的影响。由于米散射和瑞利散射效应,大气颗粒物具有消光效应,浓度越高、直径越大则消光系数越大。这也是重污染天气中能见度下降的原因。因此,雷达测得不同高度的消光系数可以反映细颗粒物的浓度分布。本文中使用消光系数数据为IAP-LAPC实验室楼顶NIES-MIE雷达所得数据。

雷达测得不同高度的消光系数可以反映细颗粒物的浓度分布,笔者绘图,见Feng L et al. (2020) Identify the contribution of elevated industrial plume to ground air quality by optical and machine learning methods Environmental Research Communications 2:021005 doi:10.1088/2515-7620/ab7634.

  因果关系假设为5000米高度的消光系数对地面颗粒物PM2.5浓度有因果性。统计推断结果显示,5000米高度的消光系数对地面颗粒物浓度的影响显著,p值小于0.005。因果效应为+ 91 µg/m3

5000米高度的消光系数对地面颗粒物浓度的影响显著,P值小于0.05。

  事实上,在所有高度的消光系数中,只有2000米和5000米高度的消光系数对PM2.5浓度影响显著。这说明自由大气上部的引导气流和边界层顶部气流的重要性。

2000米高度的消光系数对地面颗粒物浓度的影响显著,P值为0.001。

  最后我们看一下引导气流的能量对不同高度的消光系数以及边界层高度,也就是对边界层结构的影响几何。

  引导气流对近地面层的影响通过势能体现,850 hPa等压面高度的动能对500米高度的消光系数的影响显著,因果效应是-0.18。这再一次印证了边界层顶气流对大气颗粒物的平流扩散作用。

850 hPa的高度的动能对500米高度的消光系数的影响显著。

  而500 hPa等压面高度的势能和总能量对500米高度和1500米高度消光系数影响均显著,对500米高度消光系数的因果是+0.16,对1500米高度消光系数的因果是-0.08,二者符号相反。这说明引导气流的动量下传影响了边界层内大气颗粒物浓度的垂直分布。

500 hPa高度的势能和总能量对500米高度和1500米高度消光系数影响显著

  下面两张图的统计推断结果为500 hPa和850 hPa等压面高度的能量对边界层高度的影响。可以看出,引导气流的重力势能GE_500对边界层高度的影响显著,p<0.001, 因果性为负,亦即降低边界层高度853米,而下传到边界层顶的动能K_850将边界层高度提高402米。也就是说,引导气流并不能直接影响地面颗粒物浓度,而是通过把动能传输到1500米高度以下,影响边界层高度和垂直结构,从而间接影响地面的PM2.5浓度。

500 hPa高度的重力势能对边界层高度BLH的影响显著。
850 hPa高度的动能对边界层高度BLH的影响显著。

4. 研究结论

  • 在强引导气流驱动 (强迫) 的低压天气系统下,污染物浓度高值出现的频率下降。边界层高度在1500-2000 m时出现的颗粒物浓度高值说明远距离输送的贡献。值得注意的是,边界层顶部气流的动能对地面颗粒物浓度的因果效应是显著的正效应。外来传输对北京PM2.5浓度的影响为42 µg/m3

  • 边界层顶部处出现的高压系统对地面的空气污染有直接影响。高压系统下,行星长波的波峰过境,出现下沉气流,绝热增温造成逆温层。 1500米高度左右边界层顶的动能和势能之和,也就是总能量的变化能解释124 µg/m3的颗粒物浓度变化,此即自然因素对地面空气污染的影响。

  • 引导气流的动量下传影响了边界层内大气颗粒物浓度的垂直分布。引导气流对500米高度消光系数 (0-1) 的影响最明显,因果效应为0.16-0.18。引导气流的重力势能对边界层高度的影响显著,降低边界层高度853米,而下传到边界层顶的动能将边界层高度提高402米。引导气流并不能直接影响地面颗粒物浓度,而是通过把动能传输到1500米高度以下,影响边界层高度和垂直结构,从而间接影响地面的PM2.5浓度。

你可能感兴趣的:(环境与健康系列(十五)——以物理机制和数据双驱动构建因果图网络模型(上篇))