如何通过机器学习自动进行大面积土地分类

1. 概述

澳大利亚东北部的昆士兰州的地理位置非常多样化。它包括沿海雨林,广泛的桉树和相思林地,热带稀树草原,短暂的内陆河流,沙漠和丰富的农业带。面积为1,730,000平方公里(668,000平方英里),约为英国的七倍。

2. 背景

为了绘制和评估整个州的土地利用模式和变化,昆士兰州环境与科学部(DES)于20多年前成立了昆士兰州土地利用制图计划(QLUMP)。绘制和评估整个昆士兰州的土地利用模式和变化过去是一个非常耗时,资源密集的过程。但是通过机器学习,DES遥感中心减少了对大片土地进行土地使用分类的时间,并且使算法的准确率达到了97%。

如何通过机器学习自动进行大面积土地分类_第1张图片

航拍图像处理

 

3. 制图准备

DES遥感中心高级科学家安迪·克拉克(Andy Clark)表示:"土地使用已被确定为政府认为对昆士兰州的发展与发展至关重要的基础空间数据集。" "工作量很大,重要的是我们继续提高收集数据的速度及其准确性。此外,我们必须遵守澳大利亚土地使用和管理分类系统建立的标准,以便与整个国家收集的数据保持一致。"

传统上,用于使QLUMP保持最新状态的方法依赖于一支熟练的空间科学家团队来手动数字化卫星图像中的土地利用特征。由于昆士兰州的规模,此过程花费了大量时间和资源。

如何通过机器学习自动进行大面积土地分类_第2张图片

昆士兰州(图源:万能地图下载器)

 

"以前,我们已经进行了各种尝试来实现QLUMP的自动化,但最终都被证明是失败的," Clark说。"决策树模型用于从辅助数据中推断土地利用特征;但是,这种方法无法准确表示地面上的情况。我们尝试使用来自卫星图像的光谱信息进行监督分类,但确定此过程无法成功地区分特征,因为从光谱上看,它们看起来非常相似。而且,基于对象的图像分析往往与手动绘制土地使用特征一样耗费资源。"

与高性能超级计算融合并与ArcGIS集成的计算机视觉代表了一种范式转变,它提高了我们编译和发布及时的土地使用信息的能力。

但是,近年来,机器学习(人工智能(AI)的一个子学科)发展到现在,在图像分析和分类中使用计算机视觉和深度学习已变得可行。

"借助先进的编程工具和计算机硬件,成功应用机器学习对大片土地进行准确分类所需的速度和功能看起来非常有希望," Clark说。

如何通过机器学习自动进行大面积土地分类_第3张图片

人工智能

 

实际上,他和他的团队开发了一种模型,该模型可以自动对整个昆士兰州不同类型的土地利用进行分类。这就是他们如何使其工作的方式。

4. 完善数据并培训流程

训练模型进行机器学习需要大量信息。幸运的是,对于DES,它已经使用QLUMP多年了,以收集数据。"只是对它进行改进,以便可以在机器学习过程中使用它," Clark说。

如何通过机器学习自动进行大面积土地分类_第4张图片

香蕉种植园

 

昆士兰州环境与科学部(DES)创建了一个计算机视觉模型,该模型使用机器学习来绘制约翰斯顿河流域香蕉种植园的地图。

他使用ArcGIS Pro和ArcPy生成和完善训练数据。Clark还应用了一系列地理处理工具对计算机视觉模型中的预测概率进行后处理。

他解释说:"[分类]工具用于将预测转换为二进制栅格。" "使用栅格转多边形,将数据转换为要素类。图例[被用来]产生变化。并使用[消除]将小功能区合并为大功能区。"

QLUMP团队通过随机生成数千个点并评估每个点的土地使用情况来独立验证过程的准确性。

"ArcGIS Pro还会为我们生成错误矩阵,并创建和发布网络地图,应用程序和报告以与我们的利弊益相关进行沟通," Clark补充说。

在机器学习过程中,DES使用基于U-net架构的卷积神经网络(CNN)帮助模型在视觉上识别土地覆盖。CNN是模仿人脑功能的算法。通过暴露于大量的可视数据,模型可以学习区分数据中的相似点和不同点。

"我们从奥拉夫·隆纳伯格(Olaf Ronneberger)那里借来了这个想法,后者开发了该想法用于生物医学图像分割,这是一种在显微镜图像中识别细胞的方法,"克拉克解释说。"使用这种架构,我们创建了具有87,153,153个参数的算法。"

该小组通过神经网络迭代地提供了数千个卫星图像补丁,以产生预测结果。然后,该算法会自我评估并完善预测,然后重复该循环,直到最终达到97%的准确率。

如何通过机器学习自动进行大面积土地分类_第5张图片

红色,绿色和蓝色显示香蕉种植园土地的变化

 

该模型显示了土地使用随时间的变化。该示例显示了昆士兰州北部的香蕉种植园从2015年到2018年如何变化。

"Python被用来开发项目的计算机视觉部分," Clark说。"我们使用了NumPy(一个具有大量适用于Python的高级数学函数的库)来处理多维数组,并使用了地理空间数据抽象库(GDAL)来读取图像并将其转换为NumPy数组-该格​​式是神经网络。"然后,GDAL可以获取输出数组并将其转换回图像。

"GDAL读取矢量数据的一小部分,但是ArcGIS Pro是处理矢量的主要工具," Clark说。"我们还使用Python库Keras开发和评估深度学习模型。TensorFlow在后端运行。它是一个用于数据流和创建大规模神经网络的人工智能库。"

在机器学习中,由于必须快速重复地处理和精炼大量数据,因此处理速度至关重要。这就是DES使用8个Tesla V100图形处理单元(GPU)并连接至其高性能计算基础架构进行深度学习数据处理的原因。

"处理速度非常快," Clark说。"每个GPU在大约2.5天内实质上为我们提供了相当于一年的常规CPU处理能力。"

5. 扩展到其他土地用途

最初,该模型经过培训,可以识别和绘制昆士兰州北部约翰斯顿河流域的香蕉种植园。然后用于推断塔利流域的香蕉种植园。这使参与图像分析的科学家能够集中精力解释模型产生的图像,以便他们可以更好地告知部门决策者有关植物疾病的适当生物安全应对措施。

如何通过机器学习自动进行大面积土地分类_第6张图片

香蕉园(图源:万能地图下载器)

 

巴拿马第4种族热带病是一种严重的疾病,可以在香蕉种植园中迅速传播。2015年,昆士兰州农业和渔业部(DAF)在检查植物样本时将其检测到。

如何通过机器学习自动进行大面积土地分类_第7张图片

贴有"隔离"标志的香蕉种植园

 

在2015年的巴拿马热带种族4爆发后,DES必须在某些香蕉种植园采取生物安全措施。

当时,DES尚未实施其基于计算机视觉的图像分析过程。因此,要确定无处不在的真菌的传播范围,每年需要五个科学家组成的团队来手动绘制和分析昆士兰州的所有香蕉种植园和其他土地利用类别。

这些科学家的制图工作随后被用来帮助训练CNN模型。在2019年,DES收到了新图像并更新了香蕉种植园地图,计算机花了四天时间完成。由于其速度和准确性,目前正在训练CNN模型以绘制其他土地利用类别。

"将计算机视觉与高性能超级计算融合并与ArcGIS集成代表了一种范式转变,它提高了我们编译和发布及时的土地使用信息的能力," Clark说。"这些方法对于任何图像分割任务都是可持续的,并且已应用于昆士兰州树木繁茂的植被的制图,这是完全不同的应用程序,因为这些区域的范围从茂密的雨林到散乱的树木景观。"

DES打算将其方法扩展到大多数土地用途,包括其他农作物类型,林业人工林和城市土地用途类别。

"你可以在图像中看到的任何内容,都可以训练算法来查找。你只需要大量高质量的培训数据," Clark说。"基于迄今为止开发的方法,计算机视觉能够为大面积的制图和监视程序带来效率,从而为政府和非政府组织的自然资源管理和监视提供信息。

6. 结语

自该项目完成以来,ArcGIS Pro和ArcGIS API for Python进行了多项增强。现在,ArcGIS API for Python本身就支持U-net模型,并且除了能够使用ArcGIS Notebooks训练模型外,用户现在还可以使用地理处理工具通过ArcGIS Pro本地训练深度学习模型。从标注和准备数据到训练模型和运行推理,ArcGIS Pro和Notebooks均支持端到端的深度学习工作流程。这与有效管理影像数据的ArcGIS Image Server技术相结合,大大简化了工作流程。展望未来,DES正在考虑通过ArcGIS运行其土地覆盖分类工作流程。

你可能感兴趣的:(GIS技术)