科罗拉多州立大学发布CSU-MLP模型，用随机森林预测中期恶劣天气

本文首发自 HyperAI超神经微信公众号~

内容一览：近期，来自美国科罗拉多州立大学与 SPC 的相关学者联合发布了一个基于随机森林的机器学习模型 CSU-MLP，该模型能够对中期 (4-8天) 范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。
关键词：恶劣天气机器学习随机森林

天气预报尤其是恶劣天气预报对人们日常工作、生活等方面具有重要影响。Sigma 研究报告《经济积累和气候变化时期的自然灾害》(Natural catastrophes in times of economic accumulation and climate change) 显示，近年来恶劣天气对全球造成的损失不断加剧，仅 2019 年，相关灾害事件造成的全球经济损失就高达 1460 亿美元，保险损失高达 600 亿美元。并且，报告还称，随着恶劣天气灾害破坏性日益加重，未来相关损失会进一步加剧。因此，准确预测恶劣天气显得尤为迫切。

近期，美国科罗拉多州立大学的 Aaron J. Hill、Russ S. Schumacher 与国家海洋和大气管理局 (NOAA) 风暴预测中心 (SPC) 的 Israel Jirak 联合开发了一个基于随机森林的机器学习模型 CSU-MLP，该模型能够对中期（4-8天）范围内恶劣天气进行准确预报。目前该成果刊已发表在《Weather and Forecasting》期刊上。

论文地址：

https://arxiv.org/abs/2208.02383

CSU-MLP 概述

美国恶劣天气预报一般是由上文提到的 SPC 使用数值天气预报 (numerical weather prediction，简称 NWP) 模型进行预报，该模型能够提前 1-2 天预警特定恶劣天气及发生的地点，但在提前 3-8 天时只能预警发生的地点，无法预测是哪种恶劣天气。

近十年来，一种高分辨率的数值天气预报模型 CAMs (convection-allowing models) 应运而生，小于 4 天（短期）时间范围内的预报变得更加精准，但对于中长期时间范围来说，预测效果却没有较大改观。这种背景下，机器学习逐步在气象学领域得到应用。

本项研究 CSU-MLP (Colorado State University Machine Learning Probabilities) 中，模型训练的气象数据来自全球几何预报系统 (Global Ensemble Forecast System version 12，简称为 GEFSv12) 再预报数据集 (以下简称 GEFS/R)，该数据集包含了美国本土 20 年的详细历史天气数据。研究人员从中选取了 9 年（2003 年-2012 年）的数据作为本次中期预报研究训练集，选取了 2 年 (2020 年-2022 年) 作为测试集。

随机森林算法

本研究基于一个叫随机森林 (Random Forest，简称 RF) 的机器学习算法。所谓随机森林是一种基于集成学习（Ensemble Learning）的分类和回归算法。具体到本研究中，就是通过恶劣天气特征输入，遍历整个决策树从而得出恶劣天气的预测结果。

因此，在随机森林算法中，恶劣天气的特征输入的尤为重要，在本研究试验中，研究人员从上述提到的训练集中提取了 12 个与恶劣天气有关联的特征变量用作训练，具体特征变量如下表所示。

不过，在 GEFS/R 数据集中，这些特征变量分辨率并不一致，为此研究人员进行了插值处理，将其统一到了 0.5 度网格间距 (dergee grid spacing)。

特征工程

本研究中除了采用随机森林进行中期恶劣天气预测分析能力，还简要探究了特征工程。所谓特征工程指一种处理数据的技术，用于从观测事件周围收集特征，并将其转换为机器学习算法可以使用的形式。具体到本试验中，研究人员主要提出了两种方法进行简化特征，包括空间平均 (spatially averaging the features) 和时滞方法 (time-lagging) 等。

空间平均是指在研究人员提出将每个预测空间点上所有特征变量的值取平均数，这样可以减少噪声数据的干扰从而提高模型性能。具体过程如下图所示。

时滞方法是指在预测或建模过程中，将过去一段时间的观测数据延迟应用于当前时间点的预测或建模中。

它基于假设，过去的观测数据可以提供有关当前状态和未来趋势的有用信息。本次试验中，研究人员使用了时滞方法来扩充 GEFS/R 数据集的规模，但这个过程并不会对模型产生额外的计算量。

试验结果

研究人员使用 GEFSv12 的 1.5 年实时天气预报测试 CSU-MLP 预测结果，并与 SPC 生成的人工预报进行对比。相关试验结果显示，在中期预报范围内，基于随机森林的预报系统的准确性及预报地域范围都要优于 SPC，如下图所示。但是，随着时间范围的增大，二者的预报能力都会有所下降。

a 图是 CSU-MLP 的 4 天预报，b 图为 SPC 的 4 天预报。其中，被阴影覆盖的部分指的是恶劣天气的预测概率，圆形图标指的是 SPC 的龙卷风（红色）、冰雹（绿色）和风暴（蓝色）的局部预报，图片的左下角和右下角分别为评估天气预报准确性的预测技能得分 BSS 和评估局部天气预报代表性的观测覆盖率。

对此，研究人员总结，整个预测系统的技巧性和精确性都有了很大的提升，主要是因为基于随机森林的预测系统在连续概率以及低概率轮廓（表示恶劣天气的估计中，概率较低的区域所形成的轮廓）两方面预测能力很强。

此外，研究人员还通过试验不同地区、不同因素（热力学和动力学）对于预报的影响，探究了特征变量对恶劣天气预报很重要。结果如下图所示。

虽然上述不同因素、不同地区对预报的具体影响还有待于深入研究，但从中研究人员作出了初步判断：这些不同的特征变量会被模型进一步学习并用来进行恶劣天气预报。这也说明，基于随机森林的预测系统经过进一步的训练完善，是具有一定可信性和实用性的。

当然，在本试验过程中，研究人员也提出了基于随机森林的预测系统仍有很多需要完善的部分。比如，CSU-MLP 还需要再加入 SPC 人工预报的预测数据，进一步提升机器学习预报结果的可信性。

AI 智能气象新阶段或将到来

人类一直致力于理解并预测世界，其中较为成功的例子之一便是天气预报。古时候，人们大多依据生活经验来进行预报，如「朝霞不出门，晚霞行千里」等，到现代，科学家们开始使用传感器和气象卫星收集海量数据来进行更精准的预报。

值得关注的是，在气象学发展的现阶段，AI 的加入大大增强了天气预报的准确性。据外媒报道，近几年瑞士的气象研究人员通过引入 AI，成功预测到闪电的时间和地点，该模型目前预测准确性达到 80%。

同时早在 2015 年，IBM 公司就斥资 20 亿美元收购天气频道 (WeatherChannel) 母公司 Weather Co. 数码和数据资产，而该公司之所以花费如此大手笔，也正是计划将 Weather Co. 的天气数据和预测信息同旗下 AI 服务 Watson 相结合。可见，IBM 等巨头已经十分看好 AI 在气象学上的潜力，并已开始着手布局。

不难预测，虽然影响天气变化的客观因素成千上万，天气精准预报的难度依然较大，但随着 AI 和气象学融合的进一步加深，一个由 AI 定义的智能气象新时代或将加速来到。

P.S.:

本篇论文 code 及数据集后续会发布在 HyperAI超神经官网 Hyper.ai，感兴趣的伙伴们可以持续关注~