【比特大数据】第一辑:手机信令大数据格式及应用价值

【比特大数据】第一辑:手机信令大数据格式及应用价值
一、什么是手机信令大数据
手机信令是手机用户与发射基站或者微站之间的通信数据,只要手机一开机,并且手机屏幕上显示出运营商(中国移动、中国联通、中国电信)字样,信令数据就开始产生了。之后当你使用手机拨打接听电话、发送接受短信、上网浏览网页等所有通讯行为,都会和手机附近的基站发送通信关系,由于通信基站的位置是固定且已知的,基站的位置信息就反映了用户的位置,因此手机信令数据字段中始终带有时间和位置等信息。
从手机信令数据的来源来分类,可将手机信令大数据划分成三类,即话单数据、PS域信令数据和CS域信令数据。其中,话单数据信令是三个分类中最少的一类,只有当用户拨打或接听电话、发送或接收短信时才可以触发信令;CS域信令则是指BSC(基站)切换、位置更新、开关机和位置区切换等信令;而PS域信令增添了上网信令,受智能手机与4G网络的影响,通过手机上网的人数逐步增多, PS域的数据量大幅度增长。不管是何种手机信令数据,其原始数据的基本格式都包含手机IMSI号、时间戳、位置区编号、事件类型等几个字段。
表1 手机信令的数据格式
【比特大数据】第一辑:手机信令大数据格式及应用价值_第1张图片
据统计,目前约85%的人拥有并使用手机,且手机用户的业务频繁,包含电话业务、短信业务、上网业务、位置更新业务等等,大量的用户和高频的通讯行为产生了海量的手机数据,一个百万人口级别的城市一天产生的信令数据条数约为3-5亿条,这些信息是海量的,无法用人工进行识别和分析。过去,对于运营商来说,这些历史大数据除了保存和销毁,没有其他作用,而今天,越来越多的移动运营商将这些数据提供给研究人员,让原本沉睡的数据发挥巨大作用。
二、 手机信令大数据有什么用
手机信令大数据如此受追捧?那是因为与传统数据相比,它在某些方面有不可替代的优势,传统数据,比如统计局的人口数据,铁路部门公布的年运输量数据等,大多是基于统计的数据,几乎是静态的,而且某些传统数据受限于数据获取方式,仅能是抽样数据,另外,通常获取数据需要耗费大量人力物力。相对传统数据,手机信令大数据几乎是全样本的,而且是随时随地的动态获取。而且,相对于传统数据,手机信令大数据获取的成本很低廉。手机信令数据是基于人的数据,总结起来,主要要一些作用:
1.区域人口和岗位数量的推算
一直以来,城市人口和岗位总量数据均出自与统计局、民政局、公安局等几个部门,受限于数据获取方式和统计方法,这些数据只能按年度更新。且由于城市化过程中,人员流动日益频繁,传统的数据口径已经不能满足动态化的人口变化跟踪需求。而由于手机的普及率极高使得通过手机信令手机反推人口总量规模成为可能。
基于手机信令的人口推算通常是根据3个月或者半年的数据得到,通过对用户长时间追踪,判别居民的逗留地点,分析该用户是否属于某城市的常驻居民,进而统计出城市的常驻人口。
更进一步的,可以通过工作及居家时段产生活跃次数最大的稳定点判断岗位人口和居住人口。通常假设9:00-18:00为居民最可能的工作时段,将20:00-次日8:00假设为可能的居家时段,基于该假设便可以确定工作时段出现可能性最大的地点为该用户的工作地,同时确定居家时段出现可能性最大的地点为该用户的居住地。以此推算所得人口定义为居住人口。
【比特大数据】第一辑:手机信令大数据格式及应用价值_第2张图片
2.城市人口时空分布
城市人口在不同时间、不同空间的分布是完全不同的,可以用手机信令数据分析,清楚地了解城市人群的分布现状,通过对同一手机位置的长期跟踪,可判断出手机用户的居住地和工作岗位位置,从而得到城市规划最为关心的城市人口和岗位分布情况。
【比特大数据】第一辑:手机信令大数据格式及应用价值_第3张图片
人口分布图(图片来源悦西安)
3.出行OD分析
客流OD分析是交通规划最基础的数据,手机大数据发挥了大样本、客观性、连续性的优点,同时可以将交通小区细分到0.5~1平方公里的面积、分别获得工作日、周末等不同日期不同时间段不同人群的全市客流OD分析,为现代城市交通规划提供了更为详尽的OD数据分析。
【比特大数据】第一辑:手机信令大数据格式及应用价值_第4张图片
出行OD期望线(图片来源悦西安)
4.用户画像
所谓用户画像,是指单个用户所有信息标签的集合,即通过收集与分析用户的人口属性、社会交往、行为偏好等主要信息,将用户所有的标签综合起来,勾勒出该用户的整体特征与轮廓。在互联网经济条件下,满足消费者个性化需求成为运营商差异化竞争的主要手段,用户画像可以较为精准地发现客户类型,实现“数据驱动业务与运营”的重要助力。
【比特大数据】第一辑:手机信令大数据格式及应用价值_第5张图片
当然,手机信令数据可挖掘的信息远不止这些,大家现在看到的成果只是冰山一角。还有很多有价值的东西值得探索和挖掘。
三、 手机数据的处理方法和流程
手机信令原始大数据需要经过一系列的模型处理方可转变成能够对行业应用有意义的指标。结合已有经验,手机信令大数据基本的处理流程为:数据预处理-基站小区定位-出行链识别-分区统计-结果扩样。
第一步数据预处理。条件确立后,逐一筛选记录,随后提出唯一且难以识别的IMSI号、无法定位等异常记录,然后便获得与条件相符的信令大数据样本。此外还需一一评价数据空间缺失、数据连续性等情况。
第二步基站小区定位。根据手机提供的服务基站位置,将手机当前处于的基站位置确定出来,主要采用单个基站小区所在服务范围内的精度来确定。诸如:若为城区基站,基站密度较大,且服务半径较小,因而其定位精度控制在300-500m以内;若为郊区,基站密度较小,服务半径较大,则精度控制在500-2000m以内。
第三步出行链识别。根据时间来提取用户信令数据,进而便能获得各用户手机的全天候移动轨迹,紧接着便能将出行链识别模型构建出来,在这一模型中可以把手机移动轨迹划分成若干个连续出行点,进而便能识别出每次用户出行的起始点和停留点。
第四步分区统计。首先按需划分空间分析单元,以此获得能够被用来统计和分析的交通分区,随后建立起交通分区和基站小区间的对应关系,然后根据交通分区要求来对用户出行记录进行相应的汇总统计,进而便能获得基于交通分区背景下的出行记录。
第五步结果扩样。虽然当前的手机信令样本量非常庞大,但是依然无法在同一时段内获取到三家运营商数据,加之获得的一些数据为无效数据,针对此,为了剔除无效数据,确保手机信令样本有效性,便要求实施扩样处理。在具体的扩样操作中,需对居民手机保有量、有效样本筛选量、空间分布和运营商市场占额等内容进行考虑。此外还可以在社会经济调查报告、人口普查数据和岗位调查数据等资料借鉴下,对扩样结果的准确性进行校验处理。
(注:文章和图片仅用于学习交流,部分资料引用于网络,侵删)

你可能感兴趣的:(【比特大数据】第一辑:手机信令大数据格式及应用价值)