大数据学习笔记·城市计算(3)

在上一节中,我们介绍了城市计算如何利用出租车数据收集城市交通中有问题的设计。这一节继续讨论大数据在城市计算中的一个应用:识别城市特定区域。

项目介绍

在这个项目中,我们的目标是利用两部分数据识别城市中的功能区域,如教育区域、商业区域。一部分数据是人的移动性数据,另一部分数据是兴趣点的数据。

这张幻灯片展示了北京的功能区域,其中红色的区域是教育和科学区域,黑色的区域是商业区域。

区域的功能并不是单一的,是复合性的,区域是多种功能的混合体。例如,一个给定的区域可能80%是教育区域,10%是商业区域,10%是居住区域。这基本上是不同功能的分布。换句话说,即使一个区域被标识为一个教育区域,那也不意味着这个区域的每个部分都是教育区域。所以,我们需要进一步识别一个给定功能的核密度。在这张幻灯片的右图展示了商业区域的核密度分布,其中颜色越深的地方是商业区域的概率就越高。

了解了这类信息之后,我们就可以更好地规划我们未来的城市。当我们设计下一个城市规划时,我们需要知道现在的城市状况。这些信息也能够为商业选址提供帮助。例如,如果我想开一家超市,我就想知道哪里是居住区域以及哪里是居住区域的核心。

这个项目为什么需要两部分数据呢?首先,使用兴趣点数据无疑是非常重要的。例如,如果我们看到,清华大学和北京大学位于这个区域,我们很可能就知道这肯定是教育区域。但是,只使用兴趣点数据是不够的。在兴趣点数据库中,有两家餐馆都被记录为中餐馆,但是它们的含义是不同的。一家中餐馆位于居住区,服务周边的居民;而另一家中餐馆则位于商业区域或者观光区域。所以,即使兴趣点的分类相似,它们的语义也可能完全不同。我们可以使用人的移动性数据来区分同类的兴趣点。显然,第一家中餐馆的人流量非常小,它主要面向周边的居民;但是第二家餐馆,人们可能从城市的不同区域来到这个地方。所以,我们有明显的区分。另外,区域之间的人的移动性可能是有区别的,根据人的移动性模式。如果我们看到,大部分人在上午9点离开一个区域,并在下午6点左右返回这个区域,那么我们也许会猜测,这个区域当然是一个居住区域。

主题模型

一个主题模型表示一个带主题分布的文档。

例如,一个关于猫和狗的文档。其中80%的内容是关于狗的,20%的内容是关于猫的。进一步地,一个主题可以表示为一个单词的分布。例如,当你提到狗的时候,很可能我们会看到一些关于狗粮、骨头的单词。主题模型将一个文档表示为一个主题的分布,而一个主题又能进一步被表示为一个单词的分布。

这里我们做了一个映射。我们把一个区域看成一个文档,把这个区域的功能看成文档的主题。区域内的移动性模式,例如,当人们离开一个区域时,当人们进入一个区域时,他们要去的区域和离开的区域看成是文档中的单词。兴趣点数据,如一个区域中有多少剧院、超市被看成是像关键词和作者单位这样的元数据。使用LDA变形模型,我们把人的移动性和兴趣点数据作为模型的输入。模型的输出是每个区域的功能分布。这是一个无监督的学习方法。

关于LDA(隐含狄利克雷分布)详细介绍

移动性模式


人们从r1到r2时,会产生一个迁移。这里,移动性模式实际上是由区域之间的迁移表示的。我们可以聚合这些往返于任何两个区域之间的人的迁移并形成区域之间的模式。我们可以把一天分成12个时间段。对于每个时间段,我们可以构建一个区域之间的迁移矩阵。

我们可以作出一个到达长方体和一个离开立方体。每个单元表示一对区域之间的迁移,每个切片表示一个时间段,每个条目表示在一个特定时间段内两个区域之间的迁移的数量。

现在,给定一个区域,我们可以从到达长方体和离开长方体中分别提取离开模式和到达模式。

这里,每个条目表示一个模式的发生数量。例如,有12个人在这个时间段离开r2,达到r1;有24个人在t2这个时间段离开r1到达rn。这就是矩阵的含义,我们可以把每个条目看作一个单词,把模式出现的数量看成单词出现的数量。我们有兴趣点的数据库。我们可以提取每个兴趣点分类的兴趣点数量。例如,这里有10家餐馆、两家剧院,这部分信息可以被看成是作者单位和关键词。我们把他们放在一个文档里面。然后,我们可以把它们放到LDA模型中。

区域聚类


在上一步之后,每个区域都是由一个函数的分布表示的。然后,我们可以根据区域的功能向量对区域进行聚类。接着,我们可以聚合同一个聚类中的区域。例如,在上图中,我们可以把6个黑色的区域聚合成一个更大的区域。这说明我们对更好、更大的区域有了更好的理解。

应用核密度估计

基于那个地方的人的移动性,我们可以生成对每个聚合的地方核密度估计的结果。

左图展示了北京的外交和使馆区域。一个区域的颜色越深,这个区域是外交区域的可能性就越大。右图展示了北京的名胜古迹区域。

结论

我们可以根据每个区域的主题分布、移动性模式以及兴趣点来对这个区域进行标记。最终,我们基于人的感觉和数据分布生成了9类区域。

这不是自动生成的。我们需要基于主题分布、单词分布和兴趣点数据来理解这个区域的含义。

评估

我们使用跨越两年的三个数据集对我们的方法进行了评估。

例如,区域A被认为是一个新兴的居住区域,使用黄色表示。然后,2011年这个区域变成了灰色,这意味着它变成了一个建设区域。这种变化的原因在于这个区域中正在建造北京最高的建筑物。所以,这个区域周边的人的移动性模式发生了变化,而我们的方法正确地捕捉到了这种模式。

第二个例子是B,它被认为是一个绿色的,也就是公园区域,然后它变成了一个黑色的区域,也就是商业区域。这是2008年北京奥运会期间重建的前门公园。现在,你们可以看到这个区域中有成百上千的商店和餐馆。它真正变成了一个居住区域。

我们可以把我们的结果与北京的土地使用规划相匹配。这是望京区域,它被规划为居住区域。在我们的结果中,这个地方大部分是黄色的,意味着是新兴的居住区域,这是对的。但是我们还在这里识别出了一些紫色的区域,这表示新兴的商业区域。

你可能感兴趣的:(大数据与机器学习)