Challenges and Opportunities
abstract—— Geosciences 是一个于社会息息相关的领域,需要解决人类和地球面临的若干紧急问题,随着地球科学进入大数据时代,机器学习(ML)在商业领域已广为应用,它提供了巨大的潜力来解决地球科学中的问题。但是,地球科学中的问题具有传统应用中很少发现的几个独特挑战,因此需要机器学习中新颖的问题表述和方法。本文向机器学习(ML)社区的研究人员介绍了地球科学问题带来的这些挑战以及推动机器学习和地球科学发展的机遇。我们首先重点介绍地球科学数据的典型来源,并描述其特性,这些特性使使用传统机器学习技术面临挑战。然后,我们描述了机器学习可以发挥作用的一些常见的地球科学问题类别,并讨论了机器学习方法学发展的一些现有努力和有希望的方向。最后,我们讨论了一些机器学习中新兴的研究主题,这些主题适用于地球科学中的所有问题,以及机器学习和地球科学之间进行深度协作对于这两个学科的协同发展的重要性。
关键字:机器学习、地球科学、Geoscience、地球观测数据、基于物理的模型
1.Introduction
我们社会面临的巨大挑战要求解决自然界中的问题[1],[2],[3],[4],例如预测气候变化的影响,测量空气污染,预测诸如此类的灾害给基础设施带来的风险增加 作为飓风,对未来的水,食物和矿产资源的可用性和消耗进行建模,并确定造成地震,滑坡,洪水和火山喷发的因素。 对此类问题的研究是在物理学,地质学,水文学,化学,生物学,生态学和人类学等多个学科的汇合处,这些学科渴望了解地球系统及其各种相互作用的成分,这些学科统称为“地球科学”领域。 地球科学。
随着大数据的泛滥几乎对每个商业和科学领域都产生了影响,地学也见证了从数据贫乏领域到数据丰富领域的重大革命。随着更好的传感技术(例如,遥感卫星和深海钻井船)的出现,对运行地球系统模型的大规模模拟的计算资源的改进以及基于Internet的数据民主化(已实现)的实现,这已经成为可能。在众包和分布式环境(例如云平台)上收集,存储和处理数据。大多数地球科学数据集都是公开可用的,不会遭受隐私问题的困扰,这些问题阻碍了在医疗保健和网络安全等领域采用数据科学方法。不断增长的大型地球科学数据的可用性为机器学习(ML)带来了巨大潜力,它彻底改变了我们生活的几乎所有方面(例如,商业,运输和娱乐),从而极大地促进了与社会息息相关的地球科学问题。
鉴于参与地球科学研究的学科多种多样,而且所研究问题的性质多种多样,因此,地球科学数据的分析具有几个独特的方面,与商业领域中遇到的标准数据科学问题截然不同。 例如,地球科学现象受物理法则和原理支配,并且涉及对象和关系,这些对象和关系通常具有不确定的边界和复杂的潜在变量。 这些特征带来的挑战促使机器学习中新的问题公式和方法的发展,这些新的问题公式和方法可能甚至广泛适用于地球科学范围以外的问题。
因此,机器学习研究人员有很大的机会与地球科学家紧密合作,跨学科交叉融合思想,以推进机器学习和地球科学的前沿。在地球科学和机器学习的交汇处,有多个社区致力于跨学科合作的新兴领域。其中包括但不限于气候信息学:一个由研究人员组成的社区,每年举办一次研讨会,以利用统计,机器学习和数据挖掘的方法来桥接气候科学中的问题[5];气候变化远征:由国家科学基金会(NSF)计算远征资助的多机构多学科合作,以“了解气候变化:一种数据驱动的方法” [6];和ESSI:美国地球物理联合会(AGU)的地球与空间科学信息学焦点小组[7]。最近,美国国家科学基金会(NSF)资助了一个有关地球科学智能系统(IS-GEO)的研究协调网络[8],目的是在两个社区之间建立更牢固的联系。此外,机器学习和数据挖掘方面的许多领先会议,例如知识发现和数据挖掘(KDD),IEEE数据挖掘国际会议(ICDM),SIAM数据挖掘国际会议(SDM)和神经信息处理系统(NIPS)包括与地球科学有关的主题的讲习班或教程。大数据在地球科学中的作用在最近的观点文章(例如,[9],[10])和期刊和杂志的特刊(例如,[11])中也得到了认可。
本文的目的是向机器学习(ML)社区的研究人员介绍地球科学问题带来的机遇和挑战。 本文的其余部分安排如下。 第2节概述了地球科学数据的类型和来源。 第三部分描述了基础地球科学过程及其数据收集对机器学习的挑战。 第4节概述了重要的地球科学问题,其中机器学习可以带来重大进展。 第5节讨论了机器学习研究中的两个交叉主题,这些主题通常适用于地球科学的所有领域。 第6节通过简要讨论机器学习研究人员和地球科学家之间协作的最佳实践来提供总结性意见。
2 SOURCES OF GEOSCIENCE DATA
地球及其主要相互作用成分(例如岩石圈,生物圈,水圈和大气)是复杂的动力系统[12],[13],其中系统的状态在空间和时间上不断变化。为了创造质量和能量的平衡。地球系统的要素(例如,海洋中的层,空气中的离子,岩石中的矿物质和谷物以及地面上的土地覆盖)通过复杂而动态的地球科学过程(例如,降雨降落在地球表面并滋养)相互影响-生物量,沉积物沉积在河岸上,河道变化以及岩浆在海床喷发并形成岛屿)。
有关这些地球系统组成部分和地球科学过程的数据通常可以从两大类数据源中获得:(a)通过空间,海洋或陆地中的传感器收集的观测数据,以及(b)模拟来自基于物理的地球系统模型的数据。在下文中,我们简要描述了这两种类别的地理信息数据源。可以在[14]中找到对地球科学数据集及其属性的详细回顾。
2.1 地球科学观测
有关地球系统的信息是通过不同的获取方法,以不同的时空尺度和各种地球科学目标收集的。例如,太空中有一个地球观测卫星,它们的任务是监测许多地球科学变量,例如表面温度,湿度,光反射率和大气的化学成分。越来越多的太空研究组织从国家航空航天局(NASA),欧洲航天局(ESA)和日本宇航局(JAXA)等公共机构到SpaceX等私营公司共同出力有关地球的海量遥感数据种类繁多,其中许多是公开可用的(例如,参见[15])。遥感数据可以长期精细地(有时从1970年代开始)(有时从1970年代开始)提供精细空间尺度(1km至10m,甚至更小)和固定时间间隔(每月至每天)的地球科学变量历史的全局图。 16])。对于感兴趣的特定地理区域中的目标研究,还可以使用机载飞行装置(例如无人驾驶飞机(无人机)或飞机)上的传感器收集地球科学观测值,例如,以检测和分类甲烷(一种强大的温室气体)的来源。 )被排放到大气中[17]。
地质科学观测的另一个主要来源是收集放置在地面(例如气象站)或在大气中(例如气象气球)或海洋(例如船舶和海洋浮标)移动的原位传感器。通常可以在空间中不均匀的网格上以不规则的时间间隔对地球过程进行基于传感器的观测,有时甚至可以在气球,轮船或浮标等移动物体上进行。它们构成了有关地球天气和气候系统的一些最可靠,最直接的信息源,并由美国国家海洋与大气管理局(NOAA)[18]等公共机构积极维护。雨水和河流水位的基于传感器的测量对于理解水文过程(例如地表水排放)也很重要[19]。陆基地震传感器,支持全球定位系统(GPS)的设备以及其他地球物理仪器还可以持续测量地球的地质结构和过程[20]。此外,我们还提供替代测量,例如古气候记录,这些记录在少数几个位置稀疏存在,但可以追溯到数千年前。
鉴于不同地球科学过程的数据特征千差万别,因此重要的是要确定给定地球科学数据集的类型和属性,以最大程度地利用相关的数据分析方法。例如,遥感数据集通常可作为在空间和时间上按规则间隔排列的网格上的栅格使用,可以表示为各个时间点上的地理配准图像,或者表示为各个空间位置上的时间序列数据。另一方面,来自船舶和海洋浮标的传感器测量值可以表示为连续时空场的点参考数据(在空间统计文献中也称为地统计数据)。的确,有可能使用简单的插值方法或基于物理理解的更高级方法(例如重新分析技术)将一种数据类型转换为另一种数据类型,并跨越不同的时空分辨率[21]。
2.2 地球系统模型仿真
地球科学过程的一个独特方面是变量之间的关系或系统状态的演化深深地植根于物理定律和原理,科学界在多个世纪的系统研究中发现了这些定律和原理。例如,岩石运动中的水运动或大气中的空气运动是由诸如Navier–Stokes方程等流体动力学原理控制的。尽管有时可以以封闭形式求解此类基于物理学的方程式,以进行小型实验,但大多数情况下,对于在地球科学中遇到的复杂的现实世界系统,很难获得它们的精确解。但是,仍然可以使用被称为基于物理的模型的数值模型来使用基本的物理原理来模拟地球系统状态的演化。这样的模型是研究大多数地球科学过程的标准工具,其中动力学系统的状态可以使用诸如初始和边界条件或物理方程中的内部参数值之类的输入在过去或将来进行时移 。基于物理的模型会生成大量地球系统不同组件的模拟数据,这些数据可用于数据驱动的分析中。它们由世界各地不同研究人员群体组成的许多中心开发和维护。例如,世界气候研究计划(WCRP)在耦合模型比较项目(CMIP)下开发并分发了气候变量的通用循环模型(GCM)的模拟,例如海面温度和压力[22]。与岩石圈和生物圈有关的陆地过程的模拟是由社区土地模型(CLM)制作的[23],该模型是由许多国际机构与国家大气研究中心(NCAR)合作开发的。
3 地学挑战
地球科学应用程序的一些特征限制了传统机器学习算法对知识发现的实用性。首先,地球科学过程的本质带来了一些固有的挑战。例如,地球科学对象通常在空间和时间上具有不定边界,没有像其他领域的对象(如社交网站上的用户或零售店中的产品)那样清晰地定义。地球科学现象也具有时空结构,高度多变量,遵循非线性关系(例如混沌),表现出非平稳特征并经常涉及罕见但有趣的事件。其次,除了地球科学过程固有的挑战之外,用于收集地球科学观测值的程序还为机器学习带来了更多挑战。这包括以不同的时空分辨率,不同程度的噪声,不完整和不确定性存在数据。第三,对于有监督的学习方法,由于样本量小(例如,具有足够记录的历史年数少)以及地球科学应用中缺乏金标准的地面实况,因此还存在其他挑战。在下文中,我们详细描述了这三类地质科学挑战,即(a)地质科学过程的内在挑战,(b)地质科学数据收集挑战,以及(c)样品和地面真相的匮乏。
3.1地球科学过程的内在挑战
Property 1:Objects with Amorphous Boundaries(具有非晶边界的对象)
地学对象包括物质各个阶段的波(wave),流(flow)和相干结构。 因此,可以在连续的时空场中以多个尺度存在的地球科学对象的形式,结构和模式要比在机器学习算法通常处理的离散空间(例如market basket 中的项目)中发现的复杂得多。 数据。 例如,从纯粹的面向对象的角度来看,漩涡,风暴和飓风会以复杂的方式动态变形。 正在开发同时考虑相干物体的模式和动力学信息及其不确定性的新技术[24],[25],但是需要用于捕获地球科学物体其他特征的新方法,例如流体分割和流体特征表征。
Property 2: Spatiotemporal Structure (时空结构)
由于几乎所有地球科学现象都发生在时空领域,因此,以适当的时空分辨率观察时,地球科学观测值通常在时空上都是自相关的。 例如,被某个土地覆被标签覆盖的位置(例如,森林,灌木丛,城市)通常被具有相似土地覆被标签的位置包围。 土地覆盖物标签在时间上也保持一致,即某个时间的标签与其紧邻的时间标签相关。 此外,如果某个位置的土地覆被发生变化(例如,从森林到农田),则该变化通常会持续一段时间,而不是来回切换。
尽管时空自相关要求时空附近的观测之间具有更强的连通性,但地球科学过程也可以显示出长期的空间依赖性。 例如,气候科学中一个经常研究的现象是遥相关[26],[27],其中世界上两个遥远的地区在温度或压力等气候变量中表现出强烈的耦合作用。 地球科学过程还可以显示长时间的记忆特征,例如,诸如厄尔尼诺州南部涛动(ENSO)和大西洋多年代涛动(AMO)等气候指数对全球洪水,干旱和森林大火的影响[28], [29]。
地球科学数据固有的时空结构对机器学习方法有一些影响。 这是因为许多广泛使用的机器学习方法都是基于观察到的变量是独立且均匀分布(i.i.d)的假设建立的。 但是,在地球科学问题中通常会违反该假设,在这些问题中,变量在空间和时间的范围内在结构上相互关联,除非存在诸如断层之类的不连续性,而在该不连续性中自相关性将持续消失。 在连续介质中收集的地球科学数据中,时空自相关的认识对于有效建立地球物理现象至关重要。
Property 3: High Dimensionality
地球系统非常复杂,具有大量潜在变量,这些变量可能相互影响,因此可能必须同时考虑其中的许多因素[30]。 例如,要可靠,完整地检测土地覆盖变化(例如森林火灾),就需要分析多个遥感变量,例如植被指数和热异常信号。 在精细的时空分辨率下捕获这些多个变量的影响将使地球科学数据具有固有的高维性,其中维数可以轻松达到数百万个数量级。
例如,为了研究地球表面发生的过程,即使是相对较粗糙的分辨率数据集(例如,在2.5o空间分辨率下)也可以轻易产生超过10,000个空间网格点,其中每个网格点在时间上都有多次观测 。 此外,地球科学现象不仅限于地球表面,还延伸到地球表面以下(例如,在研究地下水,断层或石油中)并跨越大气或地幔的多层,从而进一步增加了地球的现象。 以3D空间分辨率显示数据。 因此,需要扩展现有的机器学习方法以处理数以万计或数百万个维度,以便对地球科学现象进行全局分析。
Property 4: Heterogeneity in Space and Time(时空异质性)
地球科学过程的一个有趣特征是它们在空间和时间上的可变程度,从而导致地球科学数据在空间和时间上具有丰富的异质性。例如,由于地球不同区域的地理,植被类型,岩层和气候条件的差异,一个地点到另一个地点的地质科学变量的特征差异很大。此外,地球系统在时间上是不稳定的,并且经历了许多周期,从季节和年代际周期到长期的地质变化(例如,冰川作用,极性反转),甚至是影响所有局部过程的气候变化现象。由于地球科学过程的这种异质性,使得难以研究跨越空间和时间所有点的地球科学变量的联合分布。因此,很难训练出在空间上的所有区域以及所有时间步骤都具有良好性能的机器学习模型。取而代之的是,需要建立局部或区域模型,每个模型都对应于一组同类的观测值。
Property 5: Interest in Rare Phenomena(对稀有现象的兴趣)
在许多地球科学问题中,我们有兴趣研究在时空上很少发生但对我们的社会和地球生态系统有重大影响的物体,过程和事件。例如,飓风,山洪和热浪之类的极端天气事件可能会导致巨大的生命和财产损失,因此,对其进行监测以适应和缓解气候变化至关重要。这些过程可能与地球系统的紧急状态(或异常)有关,或与复杂系统的其他特征(如异常状态轨迹和景点盆地)有关[31]。另一个例子是,发现地球生物圈中罕见的变化,例如森林砍伐,昆虫破坏和森林大火,有助于评估人类行为的影响并为促进生态系统可持续性提供决策依据。从地球科学数据中识别出这种罕见的变化和事件类别并表征其行为是具有挑战性的。这是因为由于类之间的偏斜(不平衡),我们经常会从稀有类中获得足够数量的数据样本,从而使它们的建模和表征变得困难。
3.2 Geoscience Data Collection Challenges
Property 6: Multi-resolution Data(多分辨率数据)
地球科学数据集通常可通过不同来源(例如,卫星传感器,原位测量和基于模型的模拟)以不同的时空分辨率获得。这些数据集可能表现出不同的特征,例如采样率,准确性和不确定性。例如,原位传感器(例如海洋中的浮标以及水文和气象测量站)的间距通常不规则。作为另一个示例,收集诸如森林火灾之类的生态系统过程的高分辨率数据可能需要使用飞行在目标区域上空的飞机的航空影像,这可能需要与在频繁的时间间隔获得的较高分辨率的卫星影像相结合。多分辨率地球科学数据集的分析可以帮助我们表征发生在不同时空尺度上的过程。例如,板块构造和重力等过程在全球范围内发生,而局部过程则包括火山作用,地震和滑坡。为了处理多分辨率数据,一种常见的方法是在不同比例的数据集之间建立桥梁(例如,使用插值技术),以便可以以相同的分辨率表示它们。我们还需要开发一种算法,该算法可以识别多种分辨率的模式,而无需将所有数据集上采样到最高分辨率。
Property 7: Noise, Incompleteness, and Uncertainty in Data
属性7:数据中的噪声,不完整性和不确定性
许多地球科学数据集(例如,由地球观测卫星传感器收集的数据)受到噪声和缺失值的困扰。 例如,传感器可能由于故障或恶劣的天气状况而暂时失效,从而导致数据丢失。 另外,测量设备的变化,例如更换有故障的传感器或从一个卫星世代切换到另一个卫星世代,可能会随着时间的推移改变传感器值的解释,从而难以在不同时间段内部署一致的分析方法。 在许多地球科学应用中,与噪声的大小相比,感兴趣的信号的大小可能较小。 此外,许多传感器特性会增加噪声,例如传感器干扰,例如,在遥感陆地表面数据的情况下,不断遇到大气(云和其他气溶胶)和地表(雪和冰)的干扰。
许多地球科学变量甚至无法直接测量,而只能从其他观测值或模型模拟中得出。例如,可以使用航空成像光谱仪来检测甲烷(一种重要的温室气体)的来源(例如,管道泄漏)。这些仪器在空中进行测量,并绘制到达传感器的地面反射的阳光。然后可以从过量的日光吸收中识别出甲烷羽流[32]。但是要确定泄漏率(通量)和由此产生的温室气体影响,还必须知道过量甲烷的散布速度有多快。这就需要考虑航空运输的影响,而航空运输的影响又需要稳态的物理假设,基于形态的羽流模型或对风速的直接原位测量。由于我们对系统的初始条件和边界条件或模型中使用的近似值的参数形式的了解不完善,因此即使从模型输出生成的数据也具有不确定性。
3.3 Paucity of Samples and Ground Truth
样品和地面真相的匮乏
Property 8: Small sample size
地球科学数据集中的样本数量通常在空间和时间上都受到限制。 限制样本数量的因素包括数据收集的历史记录和所测量现象的性质。 例如,大多数卫星产品仅在1970年代之后才可用,并且考虑到每月(每年)的处理,这意味着只有不到600(50)个样本可用。 此外,地球科学中有许多事件对于监视非常重要,但很少发生,因此导致样本量小。 例如,大多数土地覆盖变化,滑坡,海啸和森林火灾是罕见的事件,仅在短暂的时间范围内发生,主要发生在较小的空间区域。 凭借不到80年的可靠的基于传感器的数据,只有几十个罕见事件可用作训练数据。
一些地球科学变量的有限时空分辨率也受到观测方法本质的限制。 例如,古气候数据来自珊瑚,湖泊沉积物(脉),年轮和深冰芯样本,这些样本仅在地球上的一些地方可用。 同样,早期的降水记录仅存在于土地覆盖的地区。
这与涉及Internet规模数据的商业应用相反,例如文本挖掘或对象识别,在商业应用中,大量标记或未标记的数据已成为诸如深度学习之类的机器学习方法成功背后的主要因素之一。 在地球科学应用中有限数量的样本以及大量的物理变量导致本质上约束不足的问题,因此需要新颖的机器学习技术来进行可靠的分析。
Property 9: Paucity of Ground Truth
即使许多地球科学应用程序涉及大量数据,例如,使用地球观测卫星以高时空分辨率对生态系统变量进行全球观测,但地球科学问题的一个共同特征是缺乏标有金标准地面的样本 真相。 这是因为只能通过昂贵的仪器(例如低空飞行的飞机)或乏味且耗时的操作(例如基于实地的调查)来对几个地球科学变量进行高质量的测量,这严重限制了地面真相样本的收集。 其他地球科学过程(例如,地下水流)根本没有地面真理,因为由于系统的复杂性,永远无法完全了解系统的确切状态。
缺乏代表性的训练样本可能会导致许多机器学习方法的性能下降,这可能是由于模型太简单而导致模型拟合不足,或者由于模型相对于特征的维数和训练次数有限而过于拟合导致模型过度拟合 样品。 因此,有必要开发一种机器学习方法,即使在标记数据很少的情况下,也可以学习同类模型。 另一种可能性是通过模拟[33]或扰动构造可用于训练的综合数据集[34],以充分利用少数几个观察结果。
4 GEOSCIENCE PROBLEMS AND ML DIRECTIONS
地球科学问题和ML方向
地学家不断努力开发出更好的方法来对地球系统的当前状态进行建模(例如,目前有多少甲烷逃逸到大气中,地球的哪些部分被哪种生物质所覆盖),其演化以及 其所有子系统内部和之间的联系(例如,变暖的海洋如何影响特定的生态系统)。 这旨在增进我们对地球科学过程的科学理解。 这也有助于提供可操作的信息(例如,极端天气警告)或通知直接影响我们社会的政策决策(例如,适应气候变化并朝着可持续生活方式的方向发展)。 在实践中,这些目标之间的界限常常模糊不清,例如,改进的龙卷风模型可能同时导致更好的科学模型以及更有效的预警系统。
从地球科学的角度来看,机器学习的许多方法很自然地适用于地球科学应用中遇到的问题。 例如,分类和模式识别方法可用于描述诸如极端天气事件或前震或余震(地震之前或之后的震群)之类的对象,估计地球科学变量以及生成对地震状态的长期预测的对象。 地球系统。 再举一个例子,采矿关系和因果归因的方法可以提供对地球系统内部运作的见解并支持政策制定。 在下文中,我们简要描述了地球科学问题的五大类,并讨论了有希望的机器学习方向以及与每个问题相关的一些近期成功的例子。
4.1表征对象和事件
机器学习算法可以帮助表征地球科学中对理解地球系统至关重要的物体和事件。 例如,我们可以分析地球科学数据集中的模式,以检测气候事件,例如循环发生和龙卷风形成,并发现它们的前兆,以便及时预测它们。 分析地球科学数据中的时空格局也可以帮助研究气候对象(如天气前沿,大气河流和海洋涡流)的形成和运动,这是重要的地球科学过程(如降水转移)的主要驱动力 ,能量和大气和海洋中的养分。
虽然表征地球科学对象和事件的传统方法主要基于手工编码特征的使用(例如,关于寻找海洋涡旋的大小和形状约束的特殊规则[35]),但是机器学习算法可以实现其自动化使用模式挖掘技术从具有更高性能的数据中进行检测。然而,在存在具有无定形边界的时空物体及其相关不确定性的情况下[25],需要开发一种模式挖掘方法,以在描述物体和事件的特征时考虑到地球科学数据的时空特性。一种这样的方法已经成功地用于在海面高度数据中发现时空模式[36],[37],从而产生了中尺度海洋涡旋的全球催化剂[38]。 [39]探索了另一种从雷达图像中发现埋在地球表面(例如,地雷)下的异常物体的方法,该方法采用了可在各种性质的介质上工作的无监督技术。还探索了使用主题模型来从气候时间序列数据中寻找极端事件[40]。
4.2通过观测估计地球科学变量
机器学习方法有很大的机会来推断难以直接监控的关键地球科学变量,例如,使用通过卫星和地面传感器收集的其他变量的信息来推断空气中的甲烷浓度或土壤中的地下水渗漏,或者 使用地球系统模型进行仿真。 例如,可将监督的机器学习算法用于分析遥感数据并得出生态系统变量的估计值,例如森林覆盖率,植被健康状况,水质和地表水利用率,以及在精细的空间尺度和范围内。 定期间隔。 对地球科学变量的这种估计可以帮助告知管理决策,并可以对地球表面发生的变化进行科学研究。
使用监督学习方法估算地球科学变量的主要挑战是跨时空的变量特征的异质性。解决异质性挑战的一种方法是探索多任务学习框架[41],[42],其中将在数据的每个同质分区上学习模型视为一项单独的任务,并且在各个模型之间共享模型类似的任务,以规范他们的学习并避免过度拟合的问题,尤其是当某些任务缺乏训练样本时。在[43]的最新工作中可以找到基于多任务学习的方法来处理异质性的示例,其中学习每种植被类型的森林覆盖模型(通过在位置上对植被时间序列进行聚类发现)被视为一项单独的任务,植被类型之间的相似性(使用分层聚类技术提取)用于共享相关任务的学习。图1显示了使用多任务学习方法在巴西森林覆盖率预测性能方面的改进。文献[44]详细介绍了有前途的机器学习进展,例如多任务学习,多视图学习和多实例学习,以解决在监督监测遥感数据中土地覆盖变化方面的挑战。
为了解决气候数据的非平稳性质,已经开发了在线学习算法,以结合专家预测因子(气候模型)的整体输出并产生诸如温度等气候变量的可靠估计[45],[46]。在这方面的工作中,专家的权重会以跨时空的自适应方式进行更新,以捕获数据中非平稳性的正确结构。结果表明,该方法明显优于气候科学中使用的基准技术,后者是专家的非自适应平均值(多模型平均值)。在[47]中探索了解决非平稳性的另一种方法,其中学习了贝叶斯模型混合用于降低气候变量的比例,其中为空间中的每个均匀位置簇学习了不同的模型。在最近的工作中,已经开发了自适应集成学习方法[48],[49]和基于物理学的标签细化技术[50],以解决异质性和数据质量差的挑战,从而无法绘制动态映射。地表水体利用遥感数据[51]。这使得能够创建一个全球地表水监测系统(可在[52]处公开获得),该系统能够发现地表水的各种变化,例如由于干旱导致的湖泊萎缩,冰川湖融化,河道迁移和建筑等。新的水坝和水库。
在对地球科学变量进行有监督的估计中,另一个挑战是样本量小,地面标签的缺乏。在[53]中探索了解决高维和小样本量问题的方法,其中开发了稀疏性正则化函数(如稀疏组Lasso)来模拟气候变量的域特征。为了解决标签的匮乏问题,新的学习框架,例如半监督学习,利用未标签数据中的结构来提高分类性能[54],以及主动学习,其中专家注释者积极参与了模型构建过程[55],具有巨大的潜力,可以改善最新的估计在胶体应用中遇到的问题[56],[57]。在最近的工作中,尝试建立一种使用遥感数据来预测热带地区森林火灾的机器学习模型,从而为建立罕见现象的预测模型提供了一种新颖的方法[58],该方法可以应用在任何地方。即使是一小部分样本,也无法获得高质量的标记数据,但是所有样本都可以使用质量较差的标记(也许以启发式形式)。
除了有监督的学习方法外,考虑到地球科学应用(如遥感)中未标记数据的大量可用性,在估计地球科学变量时,有无监督学习方法的几种机会。 例如,已使用无监督学习方法广泛研究了卫星仪器以固定时间间隔在地球表面每个空间位置上收集的植被数据的时间序列变化,以绘制毁林,昆虫破坏,农场改建等土地覆盖变化图 ,以及森林大火[59],[60],[61]。
4.3 地学变量的长期预测
预测地球系统状态的长期趋势,例如提前预测地球科学变量,可以帮助对未来的情况进行建模并制定早期的资源规划和适应政策。生成地球科学变量预测的一种方法是运行基于物理学的模型模拟,该模拟基本上使用基于状态的动力系统对地球科学过程进行编码,其中系统的当前状态受以前的状态以及使用物理定律和原理的观测结果的影响。从机器学习的角度来看,这可以看作是时间序列回归问题,其中必须根据当前和过去的条件来预测地球科学变量的未来条件。现有的一些时间序列预测方法包括指数平滑技术[62],自回归综合移动平均(ARIMA)模型[63],状态空间模型[64]和概率模型,例如隐马尔可夫模型和卡尔曼滤波器[ 65],[66]。最近的工作,例如[67],[68],[69],[70],已经探索了使用地球科学数据的时空结构预测气候变量的机器学习方法。
预测地球科学变量长期趋势的关键挑战是开发能够表示和传播预测不确定性的方法,由于地球科学过程的高维和非平稳性质,这尤其困难[71],[72] 。在气候方案中,实施政策决策所需的精细空间尺度上的长期可预测性有限。例如,使用基于物理学的马尔可夫链和随机场模型[73],在将未来的投影缩减为高空间分辨率方面已经取得了一些进展,但仍有许多工作要做。此外,数据稀疏,不确定性分布仍然采样不佳[74],[75]。诸如飓风和洪水之类的极端事件的重尾性进一步加剧了其长期预报的挑战。在最近的工作中[67],已经开发了基于极值理论的回归模型,以自动发现稀疏的时间依赖性并在多元极值时间序列中进行预测。在[76],[77],[78]中也探索了使用气候数据预测极端天气事件的方法,例如异常高的降雨量,洪水和龙卷风。地球科学变量的有效预测可以受益于机器学习的最新进展,例如转移学习[79],其中,在当前任务上训练的模型(具有足够数量的训练样本)用于改进对未来任务的预测性能,但受限训练样本数。
4.4 Mining Relationships in Geoscience Data
在地球科学应用中的一个重要问题是要了解不同物理过程之间的相互关系,例如太平洋东太平洋海面温度的周期性变化(也称为埃尔南-南方涛动(ENSO))及其对若干陆地事件的影响。例如洪水,干旱和森林大火[28],[29]。从地球科学数据中识别出这种关系可以帮助我们捕获地球系统的生命迹象,并加深我们对地球科学过程的理解。在气候领域中研究的一类常见的关系是远程连接,它们是成对的遥远区域,在气候变量(如海平面压力或温度)中高度相关。被广泛研究的远程连接类别之一是偶极子[27],[80],它们是一对具有强负相关性的区域(例如ENSO现象)。使用数据驱动的方法发现这种关系具有巨大的潜力,它可以筛选大量基于观测和基于模型的地球科学数据,并发现与地球科学关系相对应的有趣模式。
从气候数据中发现关系的最初尝试之一是Steinbach等人的开创性工作。 [81]。在这项工作中,构建了基于图形的全球气候数据表示,其中每个节点代表地球上的一个位置,边缘代表在一对位置观察到的气候时间序列之间的相似性(例如,相关性)。然后可以使用聚类和模式挖掘方法从气候图中发现偶极子和其他高阶关系(例如,涉及三胞胎的三胞胎)。在气候科学中挖掘关系的另一系列方法是基于将气候图表示为复杂的网络[82]。这包括检查气候系统结构的方法[83],研究飓风活动[84]以及在气候网络中寻找群落的方法[85],[86]。
由于巨大的候选关系搜索空间,以及从嘈杂和不完整的地球科学数据中同时提取时空物体,它们的关系及其动力学的需求,在关系挖掘问题中出现了巨大的挑战。因此,需要能够直接发现关系以及相互作用对象的新颖方法[27],[87]。例如,最近关于这种方法发展的工作导致发现了以前未知的气候现象[88],[89],[90]。
4.5 因果发现和因果归因
发现因果关系是地球科学中的一项重要任务,与学习地球科学数据中的关系的任务密切相关,如第4.4节所述。用于分析因果关系的两个主要框架基于Granger因果关系[91]概念(根据可预测性定义因果关系)和Pearl Pearl因果关系[92](按因果关系产生的变化定义因果关系)介入。当前,在地球科学中用于因果关系分析的最常用工具是双变量Granger分析,其后是使用矢量自回归(VAR)模型的多变量Granger分析[93],但后者仍然不常用。迄今为止,基于概率图形模型的Pearl框架在地球科学中很少使用[33],[94],[95]。在过去的十年中,这种多元因果关系工具在生物学和医学领域取得了巨大突破,但在地球科学领域仍不常用,这与这些方法解决众多地球科学问题的巨大潜力形成了鲜明的对比。这些范围包括从用于估计和预测任务的变量选择到确定全球交互作用的因果路径(见图2)和因果归因[93],[95]。后者将在下面更详细地讨论。
地球系统的许多组成部分都受到人类行为的影响,因此引入了将策略行为整合到建模方法中的需求。地球科学模型产生的输出可以帮助为政策和决策提供依据。因果归因科学是决策的重要工具,可帮助科学家确定事件的原因。因果演算的框架[97]为极端天气和气候事件的因果归因提供了一个简洁的术语[95]。也已经提出了基于图形Granger模型的方法[93],但是这两种框架都没有被广泛使用。引起人们极大兴趣的是具有不确定的预测概率的决策方法的开发,产生模棱两可的风险,其尾部分辨不良代表模型产生的最有趣的极端,罕见和短暂事件。强化学习和其他随机动态规划方法的应用可以解决具有模糊风险的决策问题[98],这是需要遵循的有希望的方向。
5 交叉研究主题
在本节中,我们讨论了机器学习研究的两个新兴主题,这些主题通常适用于地球科学的所有问题。 这包括深度学习和理论指导的数据科学范式,如下所述。
5.1 Deep Learning
人工神经网络有着长达六十多年的悠久而曲折的研究历史,从1960年代感知器算法的不起眼起源到如今的“深度”架构,其中包括多层隐藏节点,被称为深度学习[99]。 ]。深度学习的力量可以归因于其使用的潜在特征的深层次结构(在隐藏节点处学习),其中复杂的特征表示为简单特征的组合。这与大标签数据集的可用性[100]结合,用于训练大型网络的计算进步以及针对跨隐藏节点深层的反向传播错误的算法改进,彻底改变了机器学习的多个领域,例如监督,半监督和强化学习。深度学习已在各种商业应用中取得了重大成功,例如计算机视觉,语音识别和自然语言翻译。
鉴于深度学习方法能够从数据中自动提取相关特征的能力,它们在解决难以从复杂地球科学数据中为对象,事件和关系建立手动编码特征的地球科学问题中具有巨大的潜力。由于地球科学数据的时空性质,地球科学问题与计算机视觉和语音识别方面的问题具有某些相似之处,其中深度学习使用卷积神经网络(CNN)和递归神经网络(RNN)等框架取得了重要成就,分别。例如,如果CNN可以学习识别图像中的猫等物体,它也可以用于识别在地球科学数据中显示出结构特征(例如,下沉坑)的龙卷风,飓风和大气河等物体和事件。实际上,最近在[101],[102]中探索了使用CNN从气候模型模拟中检测极端天气事件的方法。同样,已经探索了基于RNN的框架,例如长期短期记忆(LSTM)模型,以利用人工林转换动态的时空特性,从遥感数据中绘制东南亚的人工林图[103],[ 104],[105]。这样的框架能够提取及时进行预测所需的正确内存长度,因此对于预测具有适当提前期的地球科学变量非常有用。还探索了基于深度学习的框架,以缩小地球系统模型的输出规模,并在局部尺度上生成气候变化预测[106],并在高分辨率卫星图像中对诸如树木和建筑物之类的物体进行分类[107]。这些努力通过在深度学习框架中纳入地球科学过程的特征(例如时空结构),突显了利用深度学习在地球科学中获得与商业领域类似的成就的希望。尽管大量标记数据的可用性一直是商业领域深度学习成功的主要因素之一,但地球科学问题的主要挑战是标记样本的匮乏,从而限制了传统深度学习方法的有效性。因此,有必要为地球科学问题开发新颖的深度学习框架,例如,通过使用物理过程的领域特定信息,可以克服标记数据的匮乏。
5.2 理论指导的数据科学
考虑到地球科学应用中问题的复杂性以及地球科学当前方法框架的局限性(例如,参见水文学[108],[109],[110]中最近的辩论论文),既不是纯数据的,也不是纯物理的,这种方法可以被认为是足够的知识发现。取而代之的是,有机会寻求另一种研究范式,通过将科学知识深度整合到数据科学方法论中,探索基于物理学(或理论)的模型与数据科学方法之间的连续性,这被称为理论指导的数据科学范式。 [111]。例如,可以将科学一致性编织到预测学习算法的学习目标中,从而使所学习的模型不仅复杂性降低,训练误差较小,而且与现有的科学知识一致。这可以帮助修剪与我们的物理理解不一致的大量模型,从而减少方差,而不会影响偏差。因此,通过将机器学习框架与科学知识相结合,学习的模型可以更好地抵御过度拟合,尤其是在缺乏培训数据的情况下。例如,最近的工作探索了使用物理学指导的损失函数来跟踪图像序列中的对象[112],其中运动定律的基本知识仅用于约束输出和学习模型,而无需训练的帮助。标签。学习物理上一致的模型和解决方案的另一个动机是,领域科学家可以轻松理解它们并吸收现有的知识库,从而转化为科学进步。
从材料科学到水文学,湍流建模和生物医学等几门科学学科,都开始追求理论指导的数据科学范式。最近的一篇论文[111]建立了该范例的基础,并说明了使用来自不同领域的新兴应用程序将科学知识与数据科学模型融合的几种方法。在地球科学应用中探索类似的研究领域是一个巨大的机会,在这种研究中,机器学习方法可以通过自动从数据中学习模式和模型来在加速知识发现中发挥主要作用,但又不会忽略物理学中积累的丰富知识地质过程的基于模型的表示[75]。这可以补充地球科学在基于物理学的模型中整合数据的现有工作,例如在模型校准中,通过解决反问题从数据中学习模型中使用的近似形式的参数形式,或者在数据同化中,系统的状态转换通过对观测到的变量的测量来告知[113]。
6 CONCLUSIONS
地球系统是一个具有重大科学意义的地方,它影响着这个星球及其以外生命的方方面面。本文提供的挑战,问题和有前途的机器学习方向的调查显然并不详尽,但它说明了在这一重要领域中未来机器学习研究的巨大新兴可能性。
机器学习技术在地球科学中的成功应用通常是由地球科学中出现的一个科学问题驱动的,而成功的最佳秘诀往往是让机器学习研究人员在研究的所有阶段都与地球科学家紧密合作。这是因为地球科学家更容易理解哪个科学问题是新颖且重要的,哪些变量和数据集可用于回答该问题,产生数据集的数据收集过程固有的优点和缺点,以及哪些应用的预处理步骤,例如平滑或删除季节性周期。同样,机器学习研究人员可以更好地决定哪些数据分析方法可用并适合于数据,这些方法的优缺点以及它们可以实际实现的目标。可解释性也是地球科学中一个重要的最终目标,因为如果我们能够理解从数据中提取的模式,模型或关系背后的基本推理,它们就可以用作科学知识发现的基础。因此,在大多数地球科学应用中,通常首选选择固有透明的方法。此外,研究的最终结果需要翻译成地球科学语言,以便可以与原始科学问题联系起来。因此,研究人员之间的频繁交流避免了长时间的弯路,并确保分析的结果确实对机器学习研究人员和地球科学家都是有益的[114]。