深度学习在地学领域的运用 --- 摘译自 Markus Reichstein 2019 Nature

论文地址:https://www.nature.com/articles/s41586-019-0912-1
下一阶段,解决地球系统科学问题将采用混合模型 – 包含物理过程的模型和许多data-driven机器学习模型相结合。
地球系统数据满足"big data"的4V特征:volume, velocity, variety, and veracity.
未来的两项主要任务:
1)从海量数据中提取信息
2)发展模型从数据中学习更多(优于原先的数据同化方法)

深度学习在地学领域的运用 --- 摘译自 Markus Reichstein 2019 Nature_第1张图片
Part 1: 机器学习在地学领域的最新进展
最早采用神经网络和高分辨率卫星数据对地表覆盖类型和云进行分类;而后机器学习方法应用在地学和遥感问题中。而在过去几年,深度学习被用来挖掘数据的时空结构。
除分类问题外,机器学习在回归问题上的表现也很成功。对土壤性质和特征的预测,biogeophysical参数,这些相对静态。而机器学习也能学习动态的特征,比如用ANN预测CO 2 _{2} 2通量的昼夜和季节波动;用data-driven方式估算全球陆地photosynthesis和ET。这些机器学习预测结果的空间、季节、年际或年代际波动通常被用来benchmark机理地表模型。

caveats and limitations:
外插或采样偏差;用因果关系解释统计结果;多重假设检验问题。
经典的机器学习方法有赖于人为提取特征,对时空特征挖掘的并不全面。

Part 2: 深度学习在地学领域中的机遇
对极端天气如飓风的探测,DL可提取空间特征来定义和区分极端事件,该方法可快速检测,毋需人为主观标注。基于遥感数据,采用DL自动提取特征来对划分urban区域,准确率超过95%。
DL分为序列学习和空间学习,但两者也可结合。
计算机视觉和地学领域problem有共性(见下图)。

Part 3: 深度学习在地学领域中的挑战
有共性也有很大差异。计算机视觉领域图像识别,仅RGB三个通道;
地学领域,高光谱遥感影像,数据量巨大。地学很多数据没有被labeled,一是因为数据量巨大,二是因为label本身过程的困难,识别一只猫要比探测干旱事件要难。地学问题还会受到外插的困扰。
深度学习在地学领域的运用 --- 摘译自 Markus Reichstein 2019 Nature_第2张图片深度学习在地学领域的运用 --- 摘译自 Markus Reichstein 2019 Nature_第3张图片

地学领域五大主要挑战:
1)解译性
解译性不足是DL一大不足,但现在ESM的复杂结构也影响了它自身的可解译性。
2)物理上的一致性
DL可以很好的fit观测,但会因为外插或观测偏差的影响,预测往往是不一致的。
3)复杂且不确定的数据
变量间的因果关系不是很确定,可用贝叶斯方法解决模型的不确定性。
4)label的有限
非监督和半监督方法
5)计算的需求
比如google earth engine。

DL将会是地学领域中分类和预测空间-时间结构的主要方法。除了使预测最优,如何使模型能最大限度地从数据中学习,同时考虑物理和生物理论是更为挑战的一项任务。一个可能但尚未得到验证的方法是将机器学习与机理模型整合。

Part 4: 与机理模型的结合
深度学习在地学领域的运用 --- 摘译自 Markus Reichstein 2019 Nature_第4张图片

两类模型是互补的。
1)改进优化参数
不按PFT指定植被参数,而是从一些合适的statistical covariates中学习。一个例子,流域环境参数是通过学习几千个流域观测数据的表现然后放入hydrological model。
2)用机器学习模型替代机理子模型
对于一个半经验行的子模型,理论基础很少,同时有大量相关观测数据,这部分可被机器学习模型替代。
3)分析模拟和观测mismatch部分
机器学习可以探测到机理模型与观测不符的部分,有助于机理模型的改进。也可以校正动态变量的模拟偏差。
4)子模块constraining
采用机器学习的输出来驱动子模块,解决耦合的子模块之间误差传递。这有助于简化和减少模型参数校正的偏差和不确定性。
5)surrogate modelling或emulation
machine learning emulator快于原来的机理模型,准确性不会损失太多,有助于快速敏感性分析,模型参数校正,得到估算置信区间。
考虑到机理模型的复杂,emulation能够用于检验机器学习和深度学习外插能力。
将机器学习整合到一个系统模型中:整体network的设计,对于优化过程使用的损失函数,加physical constrain(可避免物理意义上不合理的预测);或训练数据在欠采样地区的扩展。
physical aware的机器学习模型对于过拟合处理的更好,尤其是中低体量的数据。
机器学习和机理模型的融合:概率编程(probabilistic programming)和可微分编程(differentiable programming)。概率编程可以一种灵活的方式考虑不确定性,对数据和模型不确定性的充分考虑同时结合先验知识与约束条件,对于data-driven和theory-driven的框架优化结合是很重要的。

科学发展
毫无疑问,现代机器学习方法极大改进了分类和预测能力。但这些方法如何能提升对基础科学的认知,这一问题仍然很难回答。一个基本答案是观测是科学进步的基础。例如,哥白尼的发现也是由于对行星轨道的准确观测才得以对其中规律进行推断和检验。
现在,尽管探究、假设提出和检验的流程是不变的,但data-driven和机器学习可以随意从观测数据中提取出复杂的格局,对复杂的理论和地球系统模型构成挑战。例如,用机器学习得到的data-driven全球光合估算表明气候模型高估热带雨林的光合作用。这个mismatch使科学家们提出假设来更好地描述植被冠层的辐射传输,同时也优化了其他地区的光合估算,使之更贴近leaf-level的观测。其他data-driven的估算也帮助了植被模型的校正,帮助解释高纬地区CO 2 _{2} 2季节振幅的升高是由于植被生长增强。
除了data-driven理论和模型的构建,这些提取的格局也越来越多地被用于探讨ESM中参数优化,model emulator也越来越多地被用于模型校正。

结论
地球系统研究面临的挑战会进一步推动研究方法的发展,以下是四个主要推荐内容:
1)对数据特性的识别
多源、多尺度、高维、时空关系复杂、变量之间的遥相关关系需要被充分模拟。DL很适合。
2)推断的合理性与可解译性
模型不光需要准确,还需要可信,且融合了机理。模型如果能够变得更透明且可解译性更好,将会促进机器学习在地学中的应用。
3)不确定性估计
模型应该定义它们的置信区间和可信度。贝叶斯/概率性推断应包括在模型中,对于外插情况是很有必要的。
4)用复杂的机理模型检验
机器学习模型的时空预测能力至少应该跟机理模型的结果一致。因此,建议用机理模型来检测机器学习方法的表现,尤其是训练数据有限需要评估外插情况。

建议将过程模型和机器学习模型相结合,两者不是相互替代关系,而是互为补充。最终的混合模型,应该遵循机理,概念化且可解译的结构,且在理论支持薄弱的部分采取data-adaptive策略。两个问题可用混合模型解决:大气对流的参数化、生态系统对气候和其他交互因子的时空依赖性。

注:
这篇文章的reference list中对于一些文献还进行了标识,如哪些是机器学习或是深度学习在该领域哪个方面的首次应用。这些参考文献也同样值得我们深入研究。

你可能感兴趣的:(摘译)