Will是何人?(酷炫的数据分析--多图预警)


今天突然回想起来,自己半年前参加的一个大数据入门培训(作为运营部门的人,是一定要时不时充实自己的水平的!)。当时有一个小程序展示,真是让我鸡皮疙瘩掉一地,这里就来和大家分享一个下。



这次大数据分析呢,用的是国内外还是比较出名的分析系统(价格真是的很吓人……),它的名字叫Tableau。今天我们就要用它来分析一位路人甲--Will的生活。



这次分析的数据来源是一个本地的报纸做的数据分析竞赛,报纸网站上提供了一个路人甲Will掩盖过的手机数据(包括通话类型,数据流量,联网世界和链接的信号塔位置等),可惜竞赛已经结束了数据自然也没地方下载啦,不然我一定亲自操刀演练一遍。



好,让我们来用几分钟的时间搞清楚路人甲的“隐私”。



先来看看这位仁兄的通话量:


Will是何人?(酷炫的数据分析--多图预警)_第1张图片
总量

可以看得出来,从2014年9月中旬开始数据量突然就增加了许多,在12月底更是到达了顶峰。我们猜测Will一定是在9月购买了一台新的智能手机(说不定还是Iphone,因为苹果往往是9月发布新机嘛),突然多出来的应该是手机的流量。



让我们用不同的颜色来区分一下数据类型:


Will是何人?(酷炫的数据分析--多图预警)_第2张图片
总量分类

果然,通过左边的comm type(communication type),我们就能看出来,确实在14年9月之前,他是没有用手机上过网的……可以猜测出主人公的年龄应该不小了吧



经过简单的排列,我们还能发现,15年2月份有一大片数据是空白的:

Will是何人?(酷炫的数据分析--多图预警)_第3张图片
总量分类2

这是个分析竞赛提供的数据,按理说是不会有数据丢失的问题,所以这个空白一定也是有什么特殊原因的,我们待会儿再看。



看完了数据量的情况,我们来看看数据采集的地理位置:

Will是何人?(酷炫的数据分析--多图预警)_第4张图片
省份级别地图

由于是澳洲的数据,Tableau根据根据数据中的省份和邮编自动将数据分割到了3个省,分别是新南威尔士,维多利亚和塔斯马尼亚。由于71%以上的数据都是在新州采集的,我们假设这位兄台平时生活在新南威尔士,放大到这块区域来看看能发现什么。



左手边是Tableau根据信号塔位置和数据量显示出的地图,点的大小显示除了数据量的大小,右上是根据周来分割的数据量,右下的数据量是根据小时来分割的,颜色区分了通话的类型(在地图中点亮了数量的大小):

悉尼-时间分类

可以轻易看出,图中最密集的地方是悉尼市中心,其次是北悉尼的海边。通过右下的图来分析,我们也能猜测出Will早上6点多起来,出门上班,晚上21点以后就不打电话了,在床上玩会儿手机就睡了。



还是同一张图,如果我们把数据的范围(右下)缩小到0点到4点,也就是睡觉时间:


悉尼-0到4点

我们会发现,地图上少量数据在悉尼市中心(加班?)主要的数据都是在北悉尼采集的,这就说明了这位志愿者他家就住在那附近,是个大土豪啊!(注:北悉尼房价高,富翁多)



反过来看看市中心的数据:

悉尼市中心

果然,Will大都是周一到周五在中心活动,也说明了他确实是在市中心上班的。



回到上面说的2月消失的数据,我们把时间焦距到消失前的最后一天2月9日和再度出现的那一天3月3日:

离开
到达

地图1上的大点是悉尼国际机场,右下的时间告诉了我们,他9点到的机场,12点信号消失了。提早3小时到达机场?那可不是出国旅游了吗?
图2来看,他回来的时间是早上7点,8点清关出来,然后直奔回家休息了。
了解本地飞机的朋友可能还能发现另一个信息,悉尼机场一般同时满足在12点附近起飞,7点左右到达的通常都是去新加坡或者美国的航班。
你们看,只要这几分钟时间,一个人住哪,在哪工作,去哪度假基本都可以被挖掘出来。



看完了新南威尔士,咱们迅速的看看别的省:


Will是何人?(酷炫的数据分析--多图预警)_第5张图片
塔斯马尼亚

Will出现在塔斯马尼亚最频繁的时间是圣诞节前后,和我们中国人一样,人家过年过节也要回老家庆祝的嘛,说明他的亲戚住在塔州,是个塔斯马尼“乡村”土豪啊……


Will是何人?(酷炫的数据分析--多图预警)_第6张图片
维多利亚

再来看看维多利亚省的,一共就3天,而且在一个周末,地理位置也不是市中心,可以简单的猜测出这个是他全家某个周末出游的地方。



最后呢,我们来看看主人公都是谁联系过:

Will是何人?(酷炫的数据分析--多图预警)_第7张图片
通话对象

第一纵列是联系人电话,由于是公开的数据,所以都被遮掩了,假设是联系人a,b,c,d……吧。
这个图我们也能比较直观的看出来,和a的联系通常都是用短信,下午下班后的联系比较多。不知道大家的习惯是怎么样的,我自己的偏向于和(女)朋友发短信多于打电话的。
再看看b,c这两位,基本都是在打电话,而且通话的时间段覆盖了上班时间,这也就说明了b和c估计和主人公是同事关系吧?



到此,我们仅仅通过几分钟的时间,就搞清楚了有关Will的很多隐私信息。如果我们继续深入,比如通过地理位置来分析通话时间地点猜测通话对象和Will是什么关系等等,我们就会发现个人隐私在正确的分析下是多么的没有保障……联想到淘宝上叫卖的各种客户信息,我便不再天真的以为21世纪的人是可以有隐私的了:(



发这篇文章的原因呢,纯粹是出于对这个行业的热爱,认为新鲜有趣的东西就应该搬回来和大家分享分享。有兴趣的朋友可以在这里找到原视频,希望这篇文章对不知道怎么用数据来帮助决策的人有所启发。



多谢支持



你可能感兴趣的:(Will是何人?(酷炫的数据分析--多图预警))