使用SPSS处理大规模的出租车轨迹数据,提取OD上下车点

       一般来说,大数据不应该使用python来编程处理吗,必要时还要使用Spark和Hadoop,那我要是不想编程呢,可以啊,完全可以,使用SPSS就好了。

      说到大数据,例如大规模的出租车数据,一周下来,整个北京市就会出现几十个G的文本文件。这时候用普通的记事本都打不开,最起码也得用UltraEdit打开文件。我们选择公开的示例数据,(https://www.microsoft.com/en-us/research/publication/t-drive-trajectory-data-sample/这是T-Drive轨迹数据集的示例,其中包含10,357辆出租车的一周轨迹。该数据集中的总点数约为1500万,轨迹的总距离达到900万公里。

      如此大量的数据也可称得上是大数据了,我们来看数据主要包含的信息:分别是车ID,经纬度, 是否载客(0/1),时间

当然了,有些出租车数据更全,还包含车速和方位角信息呢

使用SPSS处理大规模的出租车轨迹数据,提取OD上下车点_第1张图片

那我们应该怎么提取上下车点呢,思路是这样的,当载客信息由1变为0时,那我们认为是下车点,反之,当载客信息由0变为1时,我们就认为是上车点。

那我们应该怎么做呢?

首先。我们按照车ID和时间进行排序,如图所示  数据——排序个案

使用SPSS处理大规模的出租车轨迹数据,提取OD上下车点_第2张图片

使用SPSS处理大规模的出租车轨迹数据,提取OD上下车点_第3张图片

可以很快的排序完成

写=接下来就是如何找0变1和1变0了。我们这时就要了解一下SPSS的常用函数了,

点击  数据——选择个案

使用SPSS处理大规模的出租车轨迹数据,提取OD上下车点_第4张图片

对载客信息进行操作

使用SPSS处理大规模的出租车轨迹数据,提取OD上下车点_第5张图片

这里就有一个与上下文比较的函数了,比较本行数据是否与前面的数据相同的函数,因为是0和1,那我就比较大小就可以

使用SPSS处理大规模的出租车轨迹数据,提取OD上下车点_第6张图片

满足该条件的就是上车点, 同理,V4

注意保护原始数据,将结果数据另存为新文件

这样就会多出一列数据,上下车点的值就是1,非上下车点是0.进一步筛选数据,就可以完全提出上下车点了。

 

 

你可能感兴趣的:(地图数据)