Python,GeoJSON和GeoPandas开始地理空间分析

使用Python,GeoJSON和GeoPandas开始地理空间分析

Python,GeoJSON和GeoPandas开始地理空间分析_第1张图片

作为一个本地的纽约客,我每一次去任何纽约以外的地方,如果没有谷歌地图,都会一塌糊涂。 我们将谷歌地图等产品视为理所当然,因为它们非常方便。 Google或Apple Maps等产品建立在地理空间技术基础之上。 在更大的位置服务的生态系统中,这些技术的核心是位置,交互和角色。

这个领域被称为地理空间分析。 地理空间分析对具有地理或几何分量的数据应用统计分析。 在本教程中,我们将使用Python来学习获取地理空间数据,处理它以及可视化的基础知识。 更具体地说,我们将做一些美国地理的交互式可视化!

环境设置

本指南是用Python 3.6编写的。 如果还没有,请下载Python和Pip。 接下来,您将需要安装我们将在本教程中使用的多个软件包。 您可以通过在操作系统上打开终端或命令提示符来执行此操作:

由于我们将以交互方式使用Python,所以使用Jupyter Notebook是充分利用本教程的最佳方式。 按照本安装指南,一旦您的Jupyter Notebook程序安装成功并正常运行,请继续下载此文中的所有数据。 确保您的数据与Jupyter Notebook在相同的目录,然后我们就可以开始了!

Jupyter快速注意事项

对于那些不熟悉Jupyter Notebook的人,我简要回顾一下这个教程中特别有用的功能。

在下面的图片中,您将看到标有1-3的三个按钮,这对您来说很重要:保存按钮(1),添加单元格按钮(2)和运行单元格按钮(3)。

第一个按钮(1),用来保存工作。随时选择何时保存工作。

接下来,我们有“添加单元格”按钮(2)。单元格是可以一起运行的代码块。这些是jupyter Notebook的构建块,因为它提供了增量运行代码的选项,而不必一次运行所有代码。在本教程中,您将看到代码行被阻止。每一行代码应该对应一个单元格。

最后还有“运行单元格”按钮(3)。 Jupyter Notebook不会自动为您运行代码;你必须通过点击这个按钮来告诉它。与添加按钮一样,一旦将本教程中的每个代码块写入单元格,您应该运行它来查看输出(如果有)。请注意,如果预期有任何输出,请对比本教程中给出的结果,以确定结果是否正确。请务必随时运行代码,因为本教程中的许多代码块依赖于前面单元格的运行结果。

介绍

数据通常以几种基本数据类型的形式出现:字符串,浮点数,整数和布尔值。 然而,地理空间数据使用一组不同的数据类型进行分析。 使用Shapely模块,我们将审查这些数据类型的不同之处。

Shapely模块有一个称为几何的类,它包含不同的几何对象。 使用此模块,我们能导入所需的数据类型:

地理空间分析中最简单的数据类型是Point数据类型。 Points是表示二维空间中单个位置的对象,或简单地放置XY坐标。 在Python中,我们使用输入x和y作为参数的点类来创建点对象:

请注意,当我们打印p1时,输出为POINT(0 0)。 这表明返回的对象不是我们将在Python中看到的内置数据类型。 我们可以通过询问Python来解释这个点是否等价于元组(0,0):

上述代码由于其类型而返回False。 如果我们打印p1的类型,我们得到一个shapely的Point对象:

接下来,我们有一个多边形,它是一个二维表面,被存储为定义外部的一系列点。 由于多边形由多个点组成,因此,Shapely的多边形对象将以元组列表作为参数。

奇怪的是,Shapely的多边形对象不会将一个Shapely的点列表作为参数。 如果我们错误地输入了一个Point,我们会收到一条错误消息,提醒我们不支持该数据类型。

数据结构

GeoJSON是用于表示地理对象的格式。 它与常规JSON不同,因为它支持几何类型,例如:Point,LineString,Polygon,MultiPoint,MultiLineString,MultiPolygon和GeometryCollection。

使用GeoJSON,使可视化瞬间变得更加容易,您将在后面的部分中看到。 这主要是因为GeoJSON允许我们将集合的几何数据类型存储在一个中央结构中。

GeoPandas是一个Python模块,用于通过扩展Python模块Pandas使用的数据类型来简化在python中的地理空间数据,以允许对几何类型进行空间操作。 如果你不熟悉Pandas,请查看其教程。

通常,GeoPandas缩写为gpd,用于将GeoJSON数据读入DataFrame。 下面你可以看到我们打印出了五行GeoJSON DataFrame:

就像常规JSON和Pandas数据帧一样,GeoJSON和GeoPandas具有允许您轻松地将在二者间互相转换的功能。 使用上面的示例数据集,我们可以使用to_json函数将DataFrame转换为geojson对象:

能够轻松地将GeoJSON从一种格式转换为另一种格式,使我们处理数据更加自由,无论是分析,可视化还是操纵。

接下来,我们将审查geojsonio,一种用于在浏览器上可视化GeoJSON的工具。 使用上面的状态数据集,我们可以将美国视为一系列具有geojsonio的display方法的多边形:

运行此代码后,浏览器将打开一个链接,显示如下所示的界面:

在页面左侧,您可以看到GeoJSON显示并可用于编辑。 如果您放大并选择几何对象,您将看到您还可以自定义它:

也许最重要的是,geojsonio有多种共享内容的选项。 可以直接共享链接的选项:

并且为了方便大家,保存为GitHub,GitHub Gist,GeoJSON,CSV和各种其他格式的选项使开发人员在决定如何共享或托管内容时具有很大的灵活性。

在我们使用GeoPandas将GeoJSON传递给display函数之前看看这个例子。 如果不需要对地理空间进行操纵,我们可以将该文件视为任何其他操作,并将其内容设置为变量:

该格式仍然是display函数的合适参数,因为JSON在技术上是一个字符串。 再次,使用GeoPandas的主要区别在于是否需要进行任何操作。

这个例子只是一个要点,除了阅读JSON之外,没有必要做任何事情,所以我们只需直接传入GeoJSON字符串:

再次,在浏览器中打开了一个链接,我们完美可视化了曼哈顿的一个位置。

Python,GeoJSON和GeoPandas开始地理空间分析_第2张图片

这是一个打包介绍

它介绍了使用Python执行geoSpatial分析。大多数这些技术在R中是可互换的,但Python是地理空间分析的最佳语言之一。其模块和工具已经由开发人员开发好了,使得过渡到地理空间分析更加容易。

在本教程中,我们可视化了美国的地图,并在曼哈顿绘制了坐标数据点。可以通过多种方式扩展这些练习,状态轮廓对于创建多个可视化来比较状态之间的结果至关重要。

从本教程开始,您不仅可以创建这种可视化,还可以组合我们用于绘制多个状态中坐标的技术。要了解有关地理空间分析的更多信息,请查看以下资源:

GeoJSON

OpenStreetMap

CartoDB

如果你喜欢这里介绍的,请在Twitter上@lesleyclovesyou以获得更多的内容,数据科学漫游,最重要的是,可以点击超级可爱的小狗进行retweets。

你可能感兴趣的:(Python,GeoJSON和GeoPandas开始地理空间分析)