深度学习在地理信息行业的应用

深度学习在地理信息行业的应用

机器学习的许多方法在过去即被提出,过去受限于硬件水平限制,应用不多。近些年随着硬件水平的提高,普通计算机的算力越来越强,机器学习尤其是深度学习在许多领域取得了非常好的成绩。首先是在对算力要求不是太高的自然语言处理领域,基于统计模型的算法击败了传统的专家系统。随着GPU的发展,大规模图形运算成为可能。深度学习方法随即应用到图形图像处理领域。

地理信息行业有海量的空间数据,在摄影测量,遥感,测绘等方面对图像处理有大量的需求。过去人们通过直方图变换,伸缩拉伸等方法进行图像处理,来改善图像质量,方便判读和决策。这种方法在目前看来,会损失一定信息并且效率不高。而深度学习在这些方面,可以大有作为。

1. 图像识别

深度学习在图像识别中的发展趋势

  1. 模型层次不断加深
    2012Alex获得ImageNet冠军,其所用的AlexNet5个卷积层3个pool层和2个全连接层
    2014年获得ImageNet的GoogleNet,使用了59个卷积层,16个pool层和2个全连接层。
    2016微软的ResultNet深度残差网络,用了152个层的构架。

  2. 模型结构日趋复杂
    传统的卷积神经网络都是简单的conv-pool-FC
    后来NIN用mlpconv代替传统的conv层(mlp实际上是卷积加传统的多层感知器)。这样做一方面降低过拟合程度提高模型的推广能力,另一方面为大规模并行训练提供非常有利的条件。

  3. 海量的标注数据和适当的数据扰动
    深度学习需要大量的数据,现有的图像数据不能满足需求,结合图像数据的特点,通过平移、水平翻转、旋转、缩放等数据扰动可以产生更多的有效数据,普遍提高识别模型的推广能力。

2. 图像分割

图像语义分割是AI领域中的一个重要的分支,是机器视觉技术中关于图像理解的重要一环。随着近些年深度学习的火热,使得图像分割有了巨大的发展。

最早比较成功用神经网络做图像分割的方法是Fully Convolutional Networks(FCN)。

传统神经网络做分类的步骤是,首先是一个图像进来之后经过多层卷积得到降维之后的特征图,这个特征图经过全连接变成一个分类器,最后输出一个类别的向量,就是分类的结果。

而FCN就是把所有的全连接层换成卷积层,原来只能输出一个类别分类的网络可以在特征图的每个像素输出一个分类结果。这样就把分类的向量,变成了一个分类的特征图。

网络 源自 产生时间 增加的结构 丢弃的结构 优势 劣势
VGG16 FCN的灵感来源
FCN VGG16 2014 一个Deconv层(从无到有) 所有fc层 简单 粗糙
DeconvNet FCN 2015 Unpooling层(从无到有)、多个Deconv层(层数增加)、fc层(从无到有)
SegNet DeconvNet 2016 每个max——pooling的max索引 所有fc层
DeepLab FCN
PSPNet
Mask-RCNN 2017 真正做到像素级

3. 物体检测

物体分类与检测的难点与挑战
物体分类与检测是视觉研究中的基本问题,也是一个非常具有挑战性的问题,物体分类与检测的难点与挑战分为3个层次:实例层次、类别层次和语义层次。

  1. 实例层次
    针对单个物体实例而言,通常由于图像采集过程中光照条件、拍摄视角、距离的不同、物体自身的非刚体形变以及其他物体的部分遮挡,使得物体实例的表现特征产生很大的变化,给视觉算法识别带来了极大的挑战。

  2. 类别层次
    困难与挑战通常来自3个方面,类内差大,也即属于同一类的物体表现特征差别比较大,其原因有前面提到的各种实例层次的变化,但这里更强调的是类内不同实例的差别。

类间模糊性,即不同类的物体实例具有一定相似性,在有干扰的实际场景下,物体不可能出现在一个非常干净的背景下,往往相反,背景可能是非常复杂的,对我们感兴趣的物体存在干扰的,这使得识别问题的难度大大增加。

  1. 语义层次
    困难和挑战与图像的视觉语义相关,这个层次的困难往往非常难处理,特别是对现在的视觉理论水平而言,一个典型的问题称为多重稳定性。如图(c)左边既可以堪称是两个面对面的人,也可以看成是一个燃烧的蜡烛;右边则同时可以解释为兔子或者小鸭,同样的图像,不同的解释,这既是与人的观察视角、关注点灯物理条件有关,也与人的性格、经历有关,而这恰恰是视觉识别系统难以处理的部分。

物体检测的发展
较有影响力的工作包括:
1. RCNN(2013)
2. Fast RCNN
3. Faster RCNN
4. R-FCN
5. YOLO
6. SSD

你可能感兴趣的:(GIS,机器学习)