交通事故预测—《Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network》

一、文章信息

《Traffic Accident’s Severity Prediction:A Deep-Learning Approach-Based CNN Network 》,2019年Access上的一篇文章。

二、摘要

基于交通事故特征的权重,提出了基于特征矩阵的灰色图像(FM2GI)算法,将交通事故数据的单一特征关系转换为包含并行组合关系的灰色图像作为模型的输入变量,网络模型是基于CNN。(也就是说这篇文章的最主要创新点就是将对事故严重程度产生不同影响权重的各类特征按照权重值转化到灰度图像来表示,表达各不同影响权重维度特征之间的组合关系,而不是以单一特征同等权重来考虑对事故严重程度的影响。)

三、简介

文章的主要贡献如下:

  • 提出了一种基于交通事故特征权值并行化的FM2GI算法,将交通事故数据的单一特征关系转换为包含组合关系的灰度图像。
  • 比较了9个竞争模型的性能,结果表明,所提出的TASP-CNN模型优于9个竞争模型。

统计学方法和传统的机器学习方法目前大都考虑数据之间的单一特征关系,而不考虑所有特征之间的组合关系。而本文中结合CNN的特性,通过联系数据的特征获取数据之间的组合关系。(图一为传统研究思路,图二为文章提出的思路)
交通事故预测—《Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network》_第1张图片
交通事故预测—《Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network》_第2张图片

其实特征到图像的转换已经不是什么新鲜事了,但是本文的思想有点不同,利用CNN的特性,发现在指定卷积核大小和移动步幅的情况下,当所有的卷积操作都完成时,矩阵中心的卷积数最大,而矩阵边缘的卷积数最小(如上面的Feature5卷积数最大),这也就解释了文章中为啥要测量特征的权重,权重越高证明对事件主体的影响越大。所以,文章吧权重最大的特征填充到全0矩阵的中心,而其它权重小的依次往边缘排列。这样,就可以充分发挥CNN的固有属性和特点,提高模型的性能。

那么文章是如何测量交通事故的各维度特征的权重的呢?

基于的原理是梯度增强决策树(GBDT)。(具体原理可以看下文章的描述)

一条数据记录的特征向量表示:(一个3元组,FP表示父类特征,FC表示子类特征,wc表示子类特征的权重)
交通事故预测—《Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network》_第3张图片

由以上单一特征向量因此可以构建一个特征矩阵为:
在这里插入图片描述
其中k表示数据集的大小,n表示数据集中每个数据的子特征个数。
具体如何将文本特征构建特征向量和特征矩阵进而转化为灰度图像的两个算法流程在原文中有描述。(FV2GI,FM2GI算法描述)
交通事故预测—《Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network》_第4张图片
交通事故预测—《Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network》_第5张图片

四、模型

模型包括模型输入,卷积层,完全连接层和模型输出层,模型上来说就是CNN模型:
交通事故预测—《Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network》_第6张图片同时文章对于原始数据集进行了归一化处理(零均值归一化法)、数据不平衡化处理(SMOTE过采样算法),通过XGBoost并行化处理得到特征权重值。

在模型的超参数选择优化上,文章利用sklearn接口,结合网络搜索和随机化网络搜索算法进行100个epochs的迭代,找到最佳的超参数组合。
交通事故预测—《Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network》_第7张图片

模型结果比较:
交通事故预测—《Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network》_第8张图片

五、总结

文章的总体思路比较清晰,理解也比较容易,主要的工作还是特征的选择和提取上,集中在上文描述的特征权重计算(GBDT算法)和灰度图转化FM2GI算法(特征向量——>单张灰度图——>多张灰度图(数据集量的大小)),至于采用的预测模型其实没有改进,也就常规的优化思路。

文中的数据集量不是很大,只有几万条数据记录,作者采用的是tensorflow-gpu构建模型并训练;而对于数据量大的情况,其产生的灰度图像张数也越多,所以对于计算平台有一点要求,但相比于三通道甚至更多的图像处理来说,这都不算什么。

原文参考:
Zheng, M., Li, T., Zhu, R., Chen, J., Ma, Z., Tang, M., Cui, Z., & Wang, Z. (2019). Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network. IEEE Access, 7, 39897-39910.

你可能感兴趣的:(科研论文,python,机器学习,人工智能)