出门在外,遇上交通拥堵、事故,那可真是头大。许多交通拥堵和交通事故与驾驶员的驾驶行为有关。驾驶行为通常也是驾驶习惯,习惯成自然。在开车的过程中,如果有不良的驾驶行为,驾驶员自己很难意识到,但是后果可能很严重。
车联网开启了新的可能,因为数据可以告诉我们真相。
基于车联网实时数据,可以实时监测和评估驾驶员的驾驶行为和驾驶状态,并及时提醒驾驶员改变驾驶习惯,避免交通事故的发生。
对于车队管理、保险公司(UBI)来说,可以提高安全、节能、增效等效果。对于车企(OEM)来说,是很好的实时反馈,可以用于产品改进。
驾驶行为通常包括出行行为习惯,和驾驶行为习惯。出行行为的分析已经在上一篇谈到了。
狭义的驾驶行为包含,但不限于下面这些方面:
此外,考虑到现今的各种辅助驾驶,驾驶员使用这些辅助驾驶功能的频次(依赖性)等,也是一个维度。
如果配上了各种传感器,比如:前向摄像头、环视摄像头、车内监控摄像头、毫米波雷达等,那么可以分析的内容将会更加丰富了。
基于不同的目的,将上述各个驾驶行为分量以某种加权的方式计算出一个分数(或指数),用来衡量用户的驾驶行为,或者给用户的驾驶行为打上各种标签。
不同的商业/研究目的,驾驶行为分数的计算公式都不一样。比如:保险公司设计UBI产品的时候,开车越平稳分数越高,开车次数/里程/时间越少,分数越高。
与第一篇一样,使用来自于同一辆车的原始数据。同样,仅仅拿少量的数据字段来分享数据分析的过程。管中窥豹,略见一斑。
因为车速和车速的变化在驾驶行为和安全上最突出,就是它了。
选择下面的数据项(又是3项):
与“用户出行行为分析”中的一样,
实际操作中,把所有需要的字段都选进来,这些步骤就可以和“用户出行行为分析”一次完成。
处理完这些,我们期待一下有什么小小的惊喜出现吧。
基于这 3 项数据,计划做下面几个方面的分析:
在对所有数据动手之前,我们取第一个驾驶行程的数据来看看。它有 1854 条记录,时间跨度2479秒,也就是41.3分钟。说明中间有些数据缺失。
先看一看车速的分布图,如图1所示。
图1:车辆行驶速度的分布图从这张图中可以看出来车速分布的大概情况:
有了总体感觉后,按照时间顺序绘出汽车速度图,如图2所示。
图2:第一个驾驶行程的汽车速度蓝色横线标识120公里/小时,这是一般的高速公路限速值。仔细观察有下面几个特点:
我们用数据来验证一下上述肉眼观察的是否真是这么回事。
看看平均车速 – 怠速之间的关系。如图3所示,计算每一个驾驶行程的平均车速与怠速的百分比(怠速总时长/总驾驶时长)。
图3:平均车速 vs. 怠速时长(百分比)从上图中,可以看出:
特别注意的是,这里观察的是平均车速与怠速时长之间的相关性,二者之间不存在因果关系。真正的主因应该是交通状况、拥堵、天气等外因(如果没有车子或者驾驶员自身的原因的话)。
笔者无意于在本篇扩大研究范围,去探讨到底还有哪些因素与平均车速有关,而是留待后续的汽车动态性能分析那一篇去深入研究,敬请期待。
上图2中显示可能有一次超速(实际不是)。对全部142次行程,计算每次行程的超速次数(> 120 公里/小时),并且绘制图4,如下所示。大多数行程下,该用户是没有超速的。
图4:全部驾驶行程的超速次数基于这些,可以统计超速次数、按时间计算超速百分比。具体数据将在驾驶行为分数部分列出来。
回想一下加速度计算公式:a = ,这里 v – 车速(米/秒2),t – 时间(秒)。
用通俗的话讲,加速度就是单位时间里速度的变化量。这个单位时间就是1秒。
笔者所使用的数据就是秒级的,但是由于部分数据缺失,相邻两条记录的时间间隔有时大于1秒,相邻记录的 就可以得到加速度(否则如果缺失数据较多,计算结果会有较大的偏差)。
车速的数据单位是公里/小时,这样计算的加速度单位是公里/小时.秒。两者之间只存在一个倍数关系,对后续的相关性分析没有什么影响,但是对设定急加速/急减速的阈值(比如:多大的加速度才算是急加速?)的时候需要注意这个差别。
以第一个驾驶行程的数据为例,计算每个时间点的加速度,并绘制在图上,如图5所示。
图5:第一个驾驶行程的加速度分布从图中可以看到,数据点落在0的数轴上表明加速度为0;在正向和负向的数据点看起来似乎差不多。
纵轴是加速度(公里/小时.秒),把它换算成标准单位(米/秒2)对于我们普通俗人来说可能没有什么感觉,数字大小和日常生活中的直觉很难建立起直观的联系,多大才会有推背感?多小才感觉舒适平稳?
以 Tesla Model 3 为例,它的百公里加速号称只需要3.5秒,按照加速度单位公里/小时.秒来计算平均加速度(不考虑这个3.5秒内实际加速度是变化的)就是:100/3.5 = 28.57 公里/小时.秒。
这是超跑的水平,主要秀在试车场、赛车场等,市场上大多数车子都达不到。对于普通家用轿车,百公里加速时间一般都在8秒开外。
以8秒的百公里加速水平计算平均加速度:100/8 = 12.5公里/小时.秒。
笔者以10公里/小时.秒作为判断急加速/急减速的阈值,超过+10为急加速,低于-10为急减速。
还是以第一次驾驶行程为例,重新绘制图5,标识出急加速和急减速的阈值,得到图6。
图6:第一个驾驶行程的急加速、急减速分布从图中可以清楚地看到,第一次驾驶行程中有两次急加速、两次急减速。
在分析图2的时候观察到急加速急减速与怠速次数可能有相关性。现在就来验证一下。
回顾一下图2,在每一次怠速(车速 = 0)前后,相邻两点的距离比较大,但是这个距离和上面定义的急加速/急减速还是有一些差距的,所以,这里有意放宽加速度阈值到 5公里/小时.秒。
统计每一个行程超过这一阈值的加速度个数,绘制图7。
图7:怠速次数 vs. 急加速急减速次数从图中可以看出,怠速次数与急加速急减速次数有较强的正相关性,这与我们最初的猜测是一致的。
通过线性拟合,如果8所示。
图8:怠速次数 vs. 急加速急减速次数(2)修正 R 方(Adjusted R-Squared)为 0.72,而且回归诊断显示模型比较合适,所以基本确定了二者的线性相关性。
其实,分析这个相关性本身没有什么现实价值,在这里主要是分享这个分析的过程。就像日常生活中的娱乐活动(我们把它叫做服务业,或第三产业),大多数也找不出有什么意义,只是娱乐而已。
综合上述分析,把每一项指标的统计值列在下表中。
由前文已知,笔者仅仅选择了三项数据,分析的指标比较有限。
当我们把所有需要的驾驶行为 KPI 计算出来了之后,参考预先定义的计算公式,可以得出一个驾驶行为分数,然后就可以给这位用户(驾驶员)打上标签了。比如:新手,女司机,稳重老司机,狂野青年,等等。哎,我最怕被人贴标签了,没办法,人在江湖,身不由己
到目前为止,驾驶行为分析看起来都是简单的经典统计上的事情,好像有点 low,也有些枯燥哦。
如果把车内车外各种传感器的数据拿来,用上图像识别、环境/模式感知等各种深度学习技术,那样就一下子高逼格了。但是那就不是车联网数据了,超纲了(相对这个系列而言)。希望不久的未来和大家一起探讨这个话题哦。
下一篇,笔者将会分享基于车联网数据的汽车动态行为分析,敬请期待!
如需联系,请私信;或者微信号:jingelaoma
附:
汽车、出行大数据分析zhuanlan.zhihu.com