基于改进K-means聚类和隐马尔可夫链的汽车行驶工况构建

摘 要:


汽车行驶工况的构建对于车辆能耗、排放测试,以及汽车性能指标优化有着重要意义。而欧洲NEDC工况、世界WLTC工况等为基准的行驶工况构建并不完全适用我国汽车行驶工况的构建,基于此,制定反映我国实际道路行驶状况的工况显得越来越重要。

数据预处理(问题一)首先,利用高德地图的API接口,批量导入数据文件中的经纬度信息,绘制出一辆车在连续一周内的行驶轨迹图。对行驶轨迹图进行分析可得:本文测试车俩行驶主要路段在福州境内。其次,由于GPS信号在车辆过隧道或进入高层建筑时存在漂移和信号不稳定的情况,故删除x、y、z三轴的加速度,并通过计算相邻数据的速度间隔和时间间隔之比,得到该车辆的加速度。在完成数据初步处理后,对问题一要求中的不良数据类型进行分情况处理:(1)对于时间不连续的数据,做删除和修正处理,其操作分别为,将时间间隔大于3秒的数据进行删除,和对时间间隔为2秒的数据进行插值补充;(2)对于加、减速度异常数据,设定加、减速度的阈值对其进行删除处理;(3) 对于长时间(时间持续大于180秒)停车、堵车等怠速行驶状态进行删除处理。最后,得到三个数据文件的剩余记录数,分别为174917, 131141, 145319。经数据预处理后,保留了约85%的原始采集数据,有助于构建准确的汽车行驶工况。

运动学片段的提取(问题二)根据查阅文献,依据现有研究对怠速状态的判定标准为汽车的速度满足

,并且加速度满足,本文采取该标准来判定怠速状态。运动学片段的提取步骤为:(1)对怠速状态的第一个初始时刻进行标记,以此为约束条件,用MATLAB分别标记出怠速状态的起始点位和终止点位;(2)对时间间隔不为1秒的数据进行删除操作,保证了运动学片段的连续性;(3)根据标记点位,对时间 连续的运动学片段进行提取。得到三个数据文件的运动学片段数量,分别为674个,413 个,374个。

汽车行驶工况的构建(问题三)首先,通过查阅文献对福州的发展程度、交通状况有了初步了解,为问题三的模型构建奠定了理论基础;其次,为了构建一条时间间隔为1200-1300秒的行驶工况曲线,本文提出了两种汽车行驶工况模型,为:(1)基于改进的 k-means聚类和隐马尔科夫链的汽车行驶工况模型,(2)多目标0-1线性规划的汽车行驶工况模型;然后,确定汽车运动特征评估体系,综合各方考量,本文提出了16个特征指标,即:平均速度、平均行驶速度、怠速时间比、片段持续时间、加速时间比、减速时间比、匀速时间比、最高速度、最大加速度、最大减速度、平均加速度、平均减速度、速度标准差、加速度标准差、减速度标准差、行驶距离:最后,对特征指标计算其与实际数据 的相对误差进行模型检验,通过实验发现:本文提出的两种模型,其相对误差均小于8.032%,基本满足工业背景需要。但是,多目标0-1线性规划的汽车行驶工况模型相较于改进的k-means聚类和隐马尔科夫链的汽车行驶工况模型性能较弱,与真实值间的相对误差较大,故本文采用基于改进的k-means聚类和隐马尔科夫链的汽车行驶工况模型作为本文的汽车行驶工况模型。

最后,关于构建汽车行驶工况模型,本文提出了几点想法:(1)可以从曲线拟合的角度,考虑求解高阶拟线性方程组;(2)可以根据汽车行驶工况曲线和道路路径分类(由GPS根据经纬度解析地址,由解析出的地址作为道路路径分类标准)对瞬时油耗进行分析。

关键词:改进k・means;隐马尔科夫链;转移矩阵;多目标线性规划;汽车工况;

一、问题重述

  1. 研究背景

汽车行驶工况,是描述汽车行驶过程的速度-时间曲线。该曲线是体现汽车道路行驶的 运动学特征之一。通过对汽车行驶工况曲线进行分析,可以得到以下特征指标,其分别为 平均速度、平均行驶速度、平均加速度、平均减速度、怠速时间比、加速时间比、减速时 间比、速度标准差、加速度标准差等。通过这些特征指标,可以进一步为车辆性能标定优 化和能耗/排放认证提供扎实的理论依据。

目前,一些发达国家和组织制定了适合自己的汽车行驶工况的标准,如,欧洲NEDC 工况、世界WLTC工况等行驶工况构建。2000年初,我国开始直接采用欧洲的NEDC行驶工况对汽车产品能耗/排放的认证。然而经过多年实践发现:欧洲的NEDC行驶工况实际油耗与我国法规认证结果偏差越来越大。因而我国开始转变采用世界轻型车测试循环(WLTC)作为我国汽车行驶工况的标准。但该工况中的怠速时间比和平均速度这两个主要工况特征,与我国实际汽车行驶工况的差异较大。因此,进行基于城市自身数据的汽车行驶数据的城市汽车行驶工况的构建研究至关重要。

  1. 问题重述

基于上述的研究背景,本文需要研究和完成以下问题:

问题1:数据预处理

由汽车行驶数据的采集设备直接记录的原始采集数据往往会包含一些不良数据值,不良数据主要包括几个类型:

(1)由于高层建筑覆盖或过隧道等,GPS信号丢失,造成所提供数据中的时间不连续;

(2)汽车加、减速度异常的数据(普通轿车一般情况下:0至100km/h的加速时间大于7秒,紧急刹车最大减速度在7.5-8 m/s2);

(3)长期停车(如停车不熄火等候人、停车熄火了但采集设备仍在运行等)所采集的异常数据。

(4)长时间堵车、断断续续低速行驶情况(最高车速小于10km/h),通常可按怠速情况处理。

一般认为怠速时间超过180秒为异常情况,怠速最长时间可按180秒处理。

请设计合理的方法将上述不良数据进行预处理,并给出各文件数据经处理后的记录数。

问题2:运动学片段的提取

运动学片段是指汽车从怠速状态开始至下一个怠速状态开始之间的车速区间,如图1 所示(基于运动学片段构建汽车行驶工况曲线是日前最常用的方法之一,但并不是必须的 步骤,有些构建汽车行驶工况曲线的方法并不需要进行运动学片段划分和提取)。请设计合理的方法,将上述经处理后的数据划分为多个运动学片段,并给出各数据文件最终得到的运动学片段数量。

图1 运动学片段

问题3:汽车行驶工况的构建

请根据上述经处理后的数据,构建一条能体现参与数据采集汽车行驶特征的汽车行驶工况曲线(1200-1300秒),该曲线的汽车运动特征能代表所采集数据源(经处理后的数据)的相应特征,两者间的误差越小,说明所构建的汽车行驶工况的代表性越好。要求:

(1)科学、有效的构建方法;

(2)合理的汽车运动特征评估体系;

(3)按照你们所构建的汽车行驶工况及汽车运动特征评估体系,分别计算出汽车行 驶工况与该城市所采集数据源(经处理后的数据)的各指标(运动特征)值,并说明你们 所构建的汽车行驶工况的合理性。

二、模型假设

(1)假设暂不考虑气候条件、发展状况等对汽车行驶工况的影响;

(2)除速度外的其余单位均采用国际单位,速度单位采用km/h;

(3)假设汽车的加、减速度等于相邻速度差与时间间隔之比,暂不考虑轴加速 度的矢量合成。

(4)对于单个数据缺失,假设汽车在较短的时间间隔内是匀速行驶的,对数据进行 补充。

(5)假设长期停车、长时间堵车、断断续续低速行驶均可按怠速情况处理,时间间 隔超过180s即认定为长时间停车、堵车。

(6)假设汽车在高速公路上行驶速度受限制,最高车速被限制在120km/h,超过这个速度为异常数据,做删除处理。

三、模型符号说明

四、问题一的模型建立与求解

  1. 问题分析

根据问题一要求,由于汽车行驶的采集设备直接记录的原始采集数据会包含一些不良的数据,主要包括:(1)高层建筑覆盖或隧道路段出现GPS信号丢失;(2)汽车加减速 度;(3)长期停车;(4)长时间堵车、断断续续低俗行驶;(5)怠速超时等五种类型。 所涉及到的异常数据处理较复杂,需要考虑路段交通状况等更多因素。

题目已知的条件是某城市轻型汽车实际道路行驶采集的数据,3个数据文件分别为同 一辆车在不同时段内采集的数据。首先,对数据进行初步分析,发现存在不良数据(数据 缺失、数据异常、经纬度出现零值)等问题,通过制定具体、有效的汽车工况数据的处理 流程,实现对三个数据文件的数据预处理工作。

其次,需要对五类不良数据产生的情况进行分析,主要通过GPS速度、时间差、平均加速度、平均减速度以及发动机转速等指标参数,对不良数据按汽车工况类型进行数据处理,这样可以较为精确地处理异常数据值,提高汽车行驶工况模型的建立和求解的效率和精度。数据处理的流程图如下图2所示:

2数据预处理流程

  1. 数据预处理

首先,借助高德地图的搜索地区经纬度功能,导入每个数据条的经纬度信息,可以分别得到同一辆车在不同时段下的行驶路径。如下图3、图4、图5的汽车行驶轨迹所示:

图5汽车行驶轨迹(文件3)

根据图3、4、5的汽车行驶轨迹,可以确定该问题研究的是轻型汽车福州市的行驶工况以及福州市的经纬度信息,经度为119.30,纬度为26.08。以下4.2.1节、422节、4.2.3 节详细地列出来具体的数据处理过程。

  1. GPS速度异常数据

首先,利用Excel对文件1, 2, 3的GPS速度进行筛选,发现文件1, 2的GPS车速均为120km/h以内,而文件3有298个的GPS速度远超120km/h,需要对这部分的超速数据进行处理。

汽车在高速公路上行驶的最高车速限制为120km/h,所以文件3中出现的GPS车速大于120km/h的数据都要做相应的删除处理。

  1. 时间不连续数据

处理第(1)种情况的异常,即:高层建筑覆盖或过隧道导致GPS信号丢失,数据存在时间不连续,对于这类不良数据,其相邻两条数据的时间间隔为4声1,考虑到GPS信号丢失的时间长度也不短,故删除时间间隔大于3s的数据,对于时间间隔为2s的数据,可以用插值补充方式修正数据。

对于3个数据文件,进行Excel分析各个工况下的经纬度数据,通过筛选得到“文件3” 的经纬度数据异常值,筛选出300条经纬度为0的异常记录条,如下表1截取了文件3的 经纬度异常部分数据所示:

表1文件3的经纬度异常数据

时间

经度

纬度

2017/11/02 11:14:03

0

0

2017/11/04 10:37:59

0

0

2017/11/04 10:38:00

0

0

2017/11/04 10:38:01

0

0

2017/11/04 10:38:30

0

0

2017/11/04 10:38:31

0

0

2017/11/04 10:38:32

0

0

由于文件2的总记录数为145825条,300条异常数据对后续研究影响较小,可考虑先剔除该300条数据。在进行模型优化的时候再通过取经纬度平均值加入具体研究中。

  1. 缺失数据补充

处理第(1)种情况的异常,即:高层建筑覆盖或过隧道导致GPS信号丢失,数据存在时间不连续,对于这类不良数据,可以先对数据缺失个数进行分类,分为单个数据缺失和多组数据缺失。下面分别就两种情况的数据处理进行讨论。

(1)单个数据缺失

由于汽车经过高层建筑或隧道的情况下,出现数据通道的不顺畅而导致数据缺失的情况,在这种较短采样时段内的GPS数据缺失或者漂移问题,假设汽车在较短的时间间隔内是匀速行驶的,故可利用数据缺失前后的GPS速度、加减速度、经纬度等数据进行取均值的补充,具体计算公式如式(4-2-1)所示:

(4-2-1)

其中

表示第i个时刻和第(i + 1)的GPS速度,

,

分别表示为缺失的时刻位置点前后两点的经纬度数据,

为取均值后的当前缺失时刻的经纬度数据。由于汽车行驶的采集设备采集时间间隔为1秒,通 过Excel筛选,得到相邻时间间隔为2(缺失单个数据)的记录数为111条,下表2为(以文件1为例)截取的缺失单一数据的部分数据。

表2缺失单一数据的处理

时间

GPS速度

经度

纬度

2017/12/18 14:17:18

37.85

119.4775

25.9580

2017/12/18 14:26:22

39.5

119.5041

25.9624

2017/12/18 15:44:34

21.1

119.5041

25.9622

2017/12/18 21:33:34

5.45

119.5181

25.9643

2017/12/18 00:01:44

87.6

119.4509

26.0070

(2)多组数据缺失

汽车在实际的行驶过程中,会因为气候、地理位置或路过高架桥等原因下造成长时间的数据通路不顺畅,从而导致数据集出现大片数据缺失的情况。在该情况下,数据缺失的数量多达十几个到几千个。其缺失的数据量信息巨大,仅通过取均值或者线性插值的方式都不能较好还原原始的汽车行驶数据,故对于这种情况,当数据的缺失量巨大而对整个分析结果造成影响,应该剔除汽车在该时段内的所有记录数据,减小该段数据对后续运动学片段提取带来干扰,增加分析的难度。

  1. 删除不良数据

在上面的422中实现了对第一类不良数据的预处理。该节主要从删除不良数据的角度对问题一提出的第(2)、(3)、(4)、(5)种类型(以下记作1,2,3,4情况)进行数据处理操作。

不良数据的删除主要包括以下四个方面:

1、汽车加、减速度异常的数据(普通轿车一般情况下:0至100km/h的加速时间大于7秒,紧急刹车最大减速度在

);

2、长期停车(如停车不熄火等候人、停车熄火了但采集设备仍在运行等)所采集的 异常数据。

3、长时间堵车、断断续续低速行驶情况(最高车速小于10km/h),通常可按怠速情况处理。

4、一般认为怠速时间超过180秒为异常情况,怠速最长时间可按180秒处理。

对于这四种不良数据可以分为加减速度异常和怠速异常两种情况的分部处理。其中,1是加减速工况下的不良数据处理,2、3、4是怠速工况下的不良数据处理。

(1)加、减速度异常

由于普通轿车在一般情况下,从0加速到100km/h的加速时间要满足大于7s,紧急刹车最大减速度在由于不同车型在紧急刹车的最大减速度存在差异,可以取最大减速度为7.75m/s(减速度为7.5和8的均值)。这里假设加、减速度是根据速度差与时间间隔之比进行计算的,可忽略轴的加速度数据,为了后续研究考虑,利用Excel对x,y,z轴加速度的数据列采取删除操作后,进行加、减速度的不良数据处理。

时间间隔如下式(4-2-1)所示:

(4-2-2)

加速度异常的表达式,见下式(4-2-3)所示:

(4-2-3)

对加速度设定阈值范围,则加速度的最大值不能超过10。

减速度异常的表达式,见下式(4-2-4)所示:

(4-2-4)

其中,

表示从第(i-1)个时刻到第i个时刻的时间间隔,表示第i个时刻的瞬时加速度。下表3是利用MATLAB分别得到文件1、文件2、文件3的删除记录数据量统计情况。

3加、减速度删除记录数

数据文件编号

加速度异常记录数

减速度异常记录数

1

85

354

2

159

972

3

39

671

在约束条件下,得到不满足该约束的加减速度对应的记录行,对加减速度异常的数据进行删除处理,下表4为加、减速度异常删除的部分数据,以文件1为例。

4加、减速度异常数据

时间

GPS车速

时间差

减速度

2017/12/20 08:01:56

26.2

1

-23.5

2017/12/20 08:10:10

45.6

1

-10.1

2017/12/20 12:00:41

43.8

1

-12.3

2017/12/20 12:10:49

20.6

1

-17.2

2017/12/21 11:50:36

77.5

1

-23.5

2017/12/21 13:20:24

51.1

1

-10.1

2017/12/21 19:13:14

0

1

-24

2017/12/22 18:13:55

7.4

1

-31.6

2017/12/23 09:43:58

3

1

-74.1

2017/12/23 14:57:53

19.6

1

-17.4

2017/12/24 00:42:09

33.5

1

-10.1

(2)怠速异常

假设长期停车、长时间堵车、断断续续低速行驶均可按怠速情况处理,时间间隔超过180s即认定为长时间停车、堵车。因此不良数据类型(3)、(4)、(5)统一归为怠速情况处理。

类型(3)数据处理

首先分析类型(3)的异常数据处理,长期停车主要包括:1、停车不熄火;2、停车熄火但采集设备仍在运行。满足

的情况为长期停车。对于1、停车不熄火的行驶 指标状态进行分析,汽车停车不熄火状态下,速度v = 0,不熄火则汽车发动机仍在运行,加速度不等于0,以此为约束条件,进行删除处理。

对于2、停车熄火但设备仍在运行情况进行分析,汽车停车熄火下,速度,=0,熄火后汽车发动机不运行,汽车不会发生位置移动,有:

其中,s表示汽车在i时刻的位移数据,这里的位移是根据平均速度与时间间隔的乘积公式计算得到的。

类型(4)数据处理

其次,对长时间堵车、断断续续低速行驶的状态进行分析,根据题目所给的条件,断断续续低速行驶下的最大车速max v<10km/h且通常可按照怠速状态处理,以此为约束,当断断续续低速行驶下的车速大于等于10km/h的数据记录进行删除操作,具体约束条件如下:

(4-2-5)

根据上式(4-2-6)的约束,可以得到长时间堵车的部分异常值处理。

类型(5)数据处理

怠速状态的判断方法:据题目所给的关于怠速的名词解释可知,怠速状态下,汽车是停止运动的,即满足v为0;其次,怠速状态下汽车发动机未熄火,故其加速度不为0;同时,根据一般下的怠速时间超过180为异常情况,可以得到下式(4-2-6)的约束条件:

(4-2-6)

根据上式,可以得到怠速超时异常的数据。

  1. 涉及的计算公式

其次,对数据进行经纬度换算距离,归一化处理,列出了相关的计算公式;最后利用MATLAB得出最终处理后的数据记录数。

涉及的计算公式如下:

(1)经纬度换算距离公式:

(4-2-7 )

其中,

表示i时刻的经度,

表示i时刻的纬度,r为地球平均半径。

(2)扭矩与发动机转速关系:

(4-2-8)

其中,

表示第i个时刻的汽车行驶功率,M(i)表示第i个时刻的汽车扭矩,n(i)表示第i个时刻的汽车发动机转速。

(3)空燃比公式:

(4-2-9)

其中,M(i)表示第i个时刻的汽车燃料燃烧所需的空气量,M(i)表示第I个时刻的汽

车行驶燃烧的汽油量,

表示第i个时刻的汽车空燃比。

(4)扭矩百分比公式:

(4-2-10)

其中,M(i)表示第i个时刻的汽车扭矩百分比,

表示第i个时刻的汽车在该转速下能达到的最大扭矩。

  1. 预处理后的统计分析

由此完成了整个数据预处理过程,经过问题一的数据预处理后,文件1, 2, 3的剩余数据记录数见下表5所示:

表5经处理后的记录数

数据文件编号

原始采集数据量

删除数据量

数据补充数据量

数据的剩余记录数

1

185725

10676

132

174917

2

145825

16328

164

131141

3

164914

19728

133

145319

五、问题二的模型建立与求解

  1. 问题分析

根据问题二的要求,基于问题一得到的预处理后的数据集进行运动学片段的提取。由于汽车在行驶过程中,受到路面交通情况的影响,会出现多种怠速、加速、匀速和减速的状态。故定义了运动学片段为汽车从怠速状态开始至下一个怠速状态开始之间的车速区间。

由问题一得到经处理后的数据,会存在某段时间上的不连续,但是根据运动学片段的定义,说明了每个运动学片段都是汽车在某段连续时间上行驶发生的速度变化,反映了汽车在该时段的行驶工况。因此,在进行运动学片段划分前,需要对不连续的数据进行进一步的数据处理工作。在此基础上,根据运动学片段的定义,利用怠速状态进行片段的划分和提取。

  1. 数据处理

  1. 工况状态划分标准

为了明确地区分汽车不同的工况,需要对不同工况下汽车行驶的速度和加速度设定一个标准,如下所示:

(1)怠速工况:汽车速度满足

,并且加速度满足

的工作状态.

(2)加速工况:汽车速度满足

,并且加速度满足

的工作状态 ;

(3)减速工况:汽车速度满足

,并且加速度满足

的工作状态;

(4)匀速工况:汽车速度满足

,并且加速度满足

的工作状态。

  1. 时间不连续处理

由于问题一预处理后的数据在时间上不一定都是连续的,需要利用相邻数据条的时间间隔是否为1秒,作为判断数据是否连续的指标。利用MATLAB进行时间间隔的处理,仅保留时间间隔AZ = ls的数据集,对于时间间隔4>ls的数据,进行相应的删除。

  1. 提取运动学片段

首先根据5.1.1工况状态划分标准,确定了怠速情况下的汽车速度满足

,并且加速度满足

。其次,对一个完整的运动学片段过程进行分析,可知运动学片段的第一个初始时刻和运动学片段的结束时刻,其速度都满足

,且以此为约束条件,用MATLAB分别标记出运动学片段的起始点位和终止点位。

下图6, 7, 8分别绘制了文件1,2,3任意一个运动学片段的图像。

图7文件2的某个运动学片段

图8 文件3的运动片段

利用MATLAB软件,根据标记点位,对时间连续的运动学片段进行提取,得到三个数据文件的运动学片段数量,分别为674个,413个,374个。

六、问题三的模型建立与求解

  1. 问题分析

根据问题3的要求,构建一条能体现参与数据采集汽车行驶特征的汽车行驶工况曲线, 且约束了时间条件,其时间的横坐标满足1200-1300S。这里,我们取1200s作为要绘制的行驶工况曲线的横坐标时间范围。

首先,需要提取影响速度和时间的运动特征,如平均速度、平均行驶速度、怠速时间比、加速时间比等指标参数,对各个指标的数据进行处理,得到每个数据文件对应的一个候选工况分布特征矩阵;其次,通过建立合理的汽车运动特征评估体系,构建出汽车行驶工况曲线;最后,建立综合评价模型,对模型得到的拼接运动学片段与该城市(经处理后的数据)的实际行驶工况曲线进行误差对比,检验模型的效果。

  1. 运动特征提取

由于运动学片段为某一怠速开始至下一个怠速开始前的车速区间,而汽车实际的行驶过程可看作是大量的运动学片段的拼接,依照这一原则,利用问题二得出的三个数据文件对应的运动学片段数目,选取合理的运动特征指标,使得每一个运动学片段都有与之对应的运动特征指标,并且由这些运动特征指标确定对应的每一个运动学片段。

下表6展现的是我们用于描述运动学片段所选取的16个特征指标。

表6用于描述运动学片段的16个特征指标

序号

特征参数

定义

序号

特征参数

定义

1

平均速度

9

最大加速度

2

平均行驶速度

10

最大减速度

3

怠速时间比

11

平均加速度

4

n

片段持续时间

12

平均减速度

5

加速时间比

13

速度标准差

6

减速时间比

14

加速度标准差

7

匀速时间比

15

减速度标准差

8

最高速度

16

行驶距离

  1. 数据处理

  1. 标记工况状态

由于汽车的工况状态,主要分为怠速工况状态,加速工况状态,匀速工况状态,减速工况状态四种状态。为了后续数据处理的方便,首先对每个运动学片段额四种工况状态出现个数进行标签化,利用MATLAB将怠速状态标记为1,加速状态标记为2,减速状态标记为3,匀速状态标记为4,统计得到第i个运动学片段的怠速状态个数为l,加速状态个数为k,匀速状态个数为h,减速状态个数为g,现截取文件1预处理后的任意一个运动学片段,下表7是该部分运动学片段的标记情况和各个文件工况状态的个数。

表7工况状态标记和个数统计(部分)

具体时刻

V

a 标签编号

2017/11/1 19:11:50

0

0

1

2017/11/1 19:15:09

11.2

0.056281

4

2017/11/1 19:15:10

10.3

-0.9

3

2017/11/1 19:15:11

8.6

-1.7

3

2017/11/1 19:15:12

7.5

-1.1

3

2017/11/1 19:15:13

9.2

1.7

2

2017/11/1 19:15:14

12.2

3

2

图9汽车工况状态频率

  1. 计算特征指标值

在确定了16个特征指标后,需要得到每个运动学片段对应的16个特征指标的具体值。

下面是这16个特征指标的计算公式:

(1)片段持续时间

(6-3-1)

其中,n表示第i个运动学片段的持续时间;(△“表示第i个运动学片段的结束时刻与初始时刻之差。

(2)平均速度

(6-3-2)

其中,v表示第i个运动学片段的平均速度;,表示第i个时刻的GPS速度。

(3)平均行驶速度

(6-3-3)

其中,v表示第i个运动学片段的平均行驶速度;l表示第i个运动学片段中怠速状态的标签个数。

(4)怠速时间比

(6-3-4)

其中,t表示第i个运动学片段的怠速时间比,l为第i个运动学片段的怠速状态个数。

(5)加速时间比

(6-3-5)

其中,t表示第i个运动学片段的加速时间比,k为第i个运动学片段的加速状态个数。

(6)减速时间比

(6-3-6)

其中,t表示第i个运动学片段的减速时间比,g为第i个运动学片段的减速状态个数。

(7)匀速时间比

(6-3-7)

其中,t表示第i个运动学片段的匀速时间比,h为第i个运动学片段的匀速状态个数。

(8)最高速度

(6-3-8)

其中,表示第i个运动学片段中的速度最大温。

(9)最大加速度

(6-3-9)

其中,max表示第i个运动学片段中的加速度最大值。

(10)最大减速度

( 6-3-10)

其中,表示第,个运动学片段中的减速度最大值。

(11)平均加速度

(6-3-11)

其中,a表示第i个运动学片段中的平均加速度,k为第i个运动学片段的加速状态个数。

(12)平均减速度

(6-3-12)

其中,a表示第i个运动学片段中的平均减速度,g,为第i个运动学片段的减速状态个数。

(13)速度标准差

(6-3-13)

其中,c表示第i个运动学片段中的速度标准差(包括怠速状态)。

(14)加速度标准差

(6-3-14)

其中,c表示第i个运动学片段中的加速度标准差。

(15)减速度标准差

其中,生表示第i个运动学片段中的减速度标准差。

(16)行驶距离

(6-3-16)

其中,s1是通过经纬度换算距离的方式;s2是通过平均速度乘以时间差计算的距离。由于经纬度换算距离计算出来的号是直线距离,S2计算出来的是矢量位移距离,是符合汽车行驶轨迹的,所以在计算行驶距离时,应当使用S2的公式求解。

  1. 确定候选片段的特征矩阵

根据6.3.2的16个特征指标计算公式,可以分别得到3个数据文件的每个运动学片段 的特征矩阵,如下表8所示。

表8文件1的运动学片段特征矩阵

片段

1

6.9188

7.9733

1.3931

-1.9143

0.1304

0.4203

0.3043

0.1739

2

26.1249

35.4452

1.1848

-1.4009

0.2629

0.3577

0.3008

0.0840

3

20.1551

25.3117

1.4018

-1.8972

0.2034

0.4746

0.3051

0.0339

4

27.1863

40.7863

1.1493

-1.5561

0.3333

0.3425

0.2603

0.0731

672

27.2545

35.8821

1.3071

-1.4708

0.2403

0.3636

03117

0.0974

673

33.4227

34.6373

0.9865

-0.8736

0.0350

03881

0.4510

0.1329

674

51.5542

53.1947

0.7110

-0.9064

0.0308

0.4497

03511

0.1725

续上表

片段

n

1

69

477.4

5.2738

0.9227

1.6298

17.4

4.5

-6.7

2

369

9640.1

18.5222

0.8711

1.4349

56.5

3.9

-7.2

3

118

2378.3

14.3473

1.0310

1.7826

45.2

4.3

-7.5

4

219

5953.8

22.8238

0.9850

1.5805

55

6.1

-6.6

5

169

6610.9

25.8528

1.3985

1.9898

68.7

8

-7.5

6

220

6560.3

20.0338

1.0176

1.9256

65.5

5.3

-7.7

672

154

4197.2

18.7255

0.9294

1.5079

47.1

5.1

-7.2

673

286

9558.9

17.9162

1.1116

0.8211

56.1

7.2

-4.7

674

487

25106.9

14.9327

0.7819

1.0747

67.2

6.7

-5.3

表9文件2的运动学片段特征矩阵

片段

1

1.9426

7.6947

1.438

-1.3578

0.7466

0.12

0.1266

0.02

2

3.7613

5.7413

1.6153

-1.612

0.3409

0.2954

0.3636

0.0454

3

2.6128

6.86

1.3777

-2.75

0.6153

0.2307

0.1538

0.0512

4

36.724

37.514

1.7615

-1.8070

0.0209

0.4764

0.4450

0.0680

5

51.563

52.558

1.0433

-1.5485

0.0188

0.5660

0.2547

0.1666

6

40.033

43.117

1.2935

-1.5321

0.0714

0.4537

0.3529

0.1302

411

4.8690

5.2060

1.0792

-0.8619

0.0634

0.3380

0.4437

0.1690

412

7.1089

8.9139

1.4857

-1.3813

0.2000

03111

0.3556

0.1778

413

27.0116

30.5921

2.4167

-2.4278

0.1163

0.4186

0.4186

0.0930

续上表

片段

n

1

150

291.4

3.5341

1.0505

1.4268

11.8

4.5

-4.9

2

44

165.5

4.6277

1.2239

1.2690

13.2

4

-4.9

3

39

101.9

4.1648

0.8540

1.7201

12.2

2.7

-4.2

4

191

7014.3

15.1232

1.5843

1.5522

61.7

12.2

-6.9

5

318

16397.3

20.9777

0.9912

1.7450

73.6

6.7

-6.8

6

238

9528

14.1329

1.3309

2.2028

58.3

7.7

-7.7

411

45

319.9

5.4440

1.2817

1.1255

17.2

4.2

-4.3

412

43

1161.5

15.7867

3.4908

2.1243

42.4

14.6

-6.2

413

181

3030.8

11.9877

0.9311

1.5213

42.4

4.2

-6.1

片段

1

24.9981

30.6909

1.6977

-2.0621

0.1851

0.4166

0.3425

0.0740

2

11.7366

21.3590

1.8469

-1.802

0.4502

0.2565

0.2617

0.0418

3

11.2980

19.9322

2.37096

-3.0461

0.4326

0.2980

0.25

0.0384

4

2.77

9.8612

2.4

-1.6421

0.7181

0.1181

0.1727

0.0090

5

17.053

18.823

1.9222

-1.6281

0.0933

036

0.42666

0.1466

6

8.7075

19.3685

2.0636

-1.765

0.55

0.1833

0.25

0.0333

372

5.1296

14.6315

3.125

-2.1

0.6481

0.1481

0.2222

0.0185

373

14.3621

24.8254

1.6227

-1.2379

0.4210

0.2315

0.3052

0.0631

374

31.3570

34.0186

0.95

-0.8013

0.0781

0.375

0.4492

0.1054

续上表

片段

n

1

2699.8

2699.8

17.3269

1.2108

1.76057 56.5

5.2

-6.2

2

2241.7

2241.7

12.6886

1.7806

1.6683

42

11.5

-7.2

3

1175

1175

13.2243

1.6737

2.3505

43

7.4

-7.6

4

304.7

304.7

5.5638

2.0932

1.6981

17

6.5

-6.4

5

1279

1279

9.0640

2.2288

1.2131

30.1

11.7

-5.1

6

1044.9

1044.9

11.0212

2.1669

1.9042

30.5

8.3

-7.45

372

54

277

8.4128

3.2521

1.5857

22.4

10.4

-5.2

373

95

1364.4

14.0476

1.5313

1.8370

35.3

6.5

-6.9

374

256

8027.4

13.2246

0.7666

1.1252

45.3

4.5

-7.5

表11文件1、2、3的总体特征指标

文件

1

27.9579

34.6812

1.2163

-1.4743

0.1939

0.3949

0.3149

0.0964

2

26.0086

32.2425

1.4625

-1.5654

0.1933

0.3786

0.3335

0.0945

3

32.8194

41.3960

1.3235

-1.4627

0.2072

0.3757

0.3120

0.1051

续上表


文件

n

1

174507

4.8788 xl06

23.6214

1.2365

1.5210

109.9

55.7

-7.7

2

127457

3.3150xl0-6

22.3900

1.8591

1.6244

116.6

48.3

-7.2

3

141304

4.6375x10-6

28.4093

1.3672

1.5739

116

19.7

-7.6

片段的特征指标选取的越多,汽车在运动行驶的过程中所传达的信息就越清楚。每一个特征指标都表征着汽车运动工况的某些信息,但是有些特征指标间存在着一定的相关性,传达的信息存在一定的重叠,这就给分析和解释特征指标上带来麻烦。因此在利用这些特征指标进行汽车行驶工况模型的构建之前,需要对这16个特征指标进行因子分析, 研究其内部的相关性程度。

  1. 汽车行驶工况模型的建立与求解

  1. 基于改进k-means聚类与隐马尔科夫链的行驶工况模型——模型1

(一)改进k-means聚类

改进k-means聚类的过程是把不同的运动学片段的特征集分类到不同的聚类群中。改进的人均值聚类是一种非监督而且快速聚类的方法,能够使特征集分类后达到相同组内相似度较高,不同类间的相似度较低的目的。改进的k-means聚类模型的具体实施过程为:

(1)针对汽车的行驶工况数据特点确定2个初始聚类中心。

(2)计算第i个运动学片段〃中的第女个特征指标到最近聚类中心Z的相对距离,确定出各个运动学片段的归属类别。相对距离的计算公式如下式(6-4-1)所示:

(6-4-1)

(3)重新计算求出同一聚类的特征指标均值,并将这一均值作为新聚类中心点。

(4)重复迭代步骤(2)~(3),直至聚类中心收敛为一定值。

按上述步骤,对主要的16个特征指标进行改进的k-means聚类,把汽车行驶特征指标相似的运动学片段聚为同一类区间,可以将所有的运动学片段分为三大类,三类片段样本集的特征参数差异明显,分别代表三类不同的行驶特征。

(二)基于隐马夫科夫链的运动学片段合成

由于汽车在行驶过程中,车速是随城市的交通情况而随机的变化。而马尔科夫链过程也是一个随机过程,可以用来描述一段时间内的汽车工况状态的转移概率情况,是在假设每一个汽车工况状态已经发生的前提下,接下来发生哪个工况状态的概率分布是已知的。

因此可以把汽车的行驶工况过程看作是随机变化的离散马尔科夫过程。

(1)工况状态划分

在6.3的数据处理中,完成了对汽车实际行驶过程的4种工况状态的标记工作,同时 得到了每个运动学片段中,怠速状态、加速状态、匀速状态、减速状态出现的次数。

将每个运动学片段确定为模型事件,记为Y,把运动学特征接近的片段整合为模型事件集,构成马尔科夫链的状态,记作K。

(2)构建状态转移矩阵

汽车当前的工况状态K,的概率只与前一个状态K,t有关,即:离散的马尔科夫过程在固定的时间间隔下会保持稳定性,并且假设未来时刻的取值只与当前时刻的取值有关,而与过去的时刻无关。

即对于从任意状态r -1到状态/满足条件概率:

(6-4-2 )

条件概率定义为状态r-1到状态r的转移概率,在马尔科夫链过程中,转移概率的物理意义是当前时间为7-1时状态P的模型事件,转移到下个时间为了时 状态〃的模型事件的概率。转移概率矩阵P。

对于一个固定的马尔科夫过程,根据最大似然函数,得到状态转移概率方程

其中,Npk表示时间从y-1到状态从p转移至上的事件数。

  1. 模型1的求解

利用MATLAB的隐马尔科夫工具箱,可以得到工况状态的转移概率矩阵,见表12所示:

表12工况状态的转移概率矩阵

聚类类别

当前状态

下一状态

加速工况

减速工况

匀速工况

息速工况

加速工况

0

0.456

0.544

0

聚类1

减速工况

0.421

0

0.430

0.149

匀速工况

0.429

0.537

0

0.034

怠速工况

0.764

0.015

0.221

0

加速工况

0

0.306

0.684

0

聚类2

减速工况

0.370

0

0.630

0

匀速工况

0.541

0.459

0

0

怠速工况

1

0

0

0

  1. 基于多目标0-1线性规划的行驶工况模型——模型2

模型1是从概率的角度构建的行驶工况模型。现在从数据本身的角度构建模型2— 基于多目标线性规划的行驶工况模型。由于问题三要求我们构建的汽车行驶工况曲线,要尽可能地贴近汽车实际行驶工况曲线。而汽车行驶工况模型是基于16个特征指标构建的,从特征指标的角度就是每一个候选运动学片段的16个特征要越贴近汽车实际行驶的16个特征指标值。基于这一想法,建立了基于多目标0-1线性规划的行驶工况模型,以下是具体的模型构建过程:

多目标0-1线性规划是有两个及两个以上的目标函数,同时满足目标函数和约束条件均为线性的情况。对于多个候选的运动学片段选取其中的若干个片段,拼接成汽车行驶工况曲线,所以对于每一个候选的运动学片段的决策变量只能取0或者1,而决策变量取值为1的这些运动学片段就是最后用来拼接的片段。在建立多目标0-1线性规划的行驶工况模型时,目标函数应当满足实际行驶的每个特征指标与选取的若干个运动学片段的每个特征指标尽可能的靠近,16个特征指标的误差都尽可能趋近0。

首先,定义汽车实际行驶的特征指标集为w;每一个运动学片段J的特征指标集;每一个运动学片段J的决策变量δ。

其次,目标函数表达式满足下式(6-4-1)所示

(6-4-1)

约束条件满足下式(6-4-2)所示:

(6-4-2)

上述的约束条件必须满足选取的运动学片段的怠速时间之和,小于汽车实际行驶中的怠速时间比,运动学片段的加速时间之和,小于汽车实际行驶中的加速时间比,运动学片段的匀速时间之和,小于汽车实际行驶中的匀速时间比,运动学片段的减速时间之和,小于汽车实际行驶中的减速时间比,决策变量的取值为0或者1。

6.4.4模型2的求解

对于模型2提出的多目标0-1线性规划模型的求解,可以采用模糊数学模型,考虑将多目标规划转化为单目标规划进行求解的思路。

对每一个目标明W,i = l,2,…,“给出了每个目标的模糊伸缩指标。伸缩指标与的选取要根据各个子目标的重要性进行选择,具体的取值原则为:越是重要的目标,其伸缩的指标应越小,根据这一想法,可以实现对每一个子目标进行模糊化处理。

(1)构建模糊目标

对子目标

构造一个模糊目标U,定义其隶属函数为:

(6-4-3)

(2)模糊最优解

取模糊判决为:

,则称满足

,为模糊最优解,同时也是原目标函数的最优解。

所以,求解多目标线性规划的模糊最优解问题可转化为如下形式:

(6-4-4)

则上式(6-4-4)被转化为了一个普通的单目标0-1线性规划问题,通过MATLAB的函数bintprog求解0-1线性规划问题。

6.5模型求解与检验

  1. 模型求解

利用SPSS软件,设定聚类个数为3类,依据每个运动学片段的16个特征指标,得到对文件1的674个片段的分类情况,如下表13所示:

表13聚类与聚点距离

个案号

聚类

距离

个案号

聚类

距离

1

1

670.151

541

2

1827.72

2

2

3721.51

542

2

1152.651

3

1

1277.569

543

1

699.845

4

2

25.05

544

1

766.761

5

2

732.103

545

2

349.149

6

2

656

546

3

377.03

301

1

549.111

667

1

1209.278

302

1

202.987

668

2

2482.709

303

1

554.004

669

1

1692.217

304

3

1701.145

670

1

1296.809

305

1

996.114

671

2

1555.632

306

1

75.328

672

2

1747.732

307

1

906.982

673

2

3615.657

308

1

78.292

674

3

8592.003

表14聚类1,2,3的特征指标值

特征指标

1

2

3

11.8562

29.2041

41.8439

17.7607

34.5528

44.9693

1.6897

1.2332

0.9965

-1.9198

-1.5738

-1.2532

0.3572

0.1504

0.0743

0.3193

0.4398

0.445

0.2792

0.3323

0.36

0.0769

0.088

0.1259

n

903119

207.596

400.5

1147.0021

5944.099

16515.3429

9.8988

16.3779

16.9312

1.5725

1.1617

0.9431

1.5344

1.5568

13985

28.9337

51.6434

65.4357

6.5882

7.3429

7.3571

-5.4489

-6.6634

-6.9214

然后,以聚类点为依据,选择出距离每个聚点最近的三个运动学片段,展示如下:

表15距离聚点最近的片段

个案号

聚类

距离

211

1

20.064

439

1

22.145

597

1

7.866

4

2

25.05

134

2

58.568

294

2

15.347

72

3

823.172

546

3

377.03

592

3

343.355

这里,我们设定1200秒作为汽车行驶工况曲线的时间区间,按照聚点的片段持续时间这一指标,分配1200秒,聚类1、聚类2、聚类3的样本时间长度比例分别为12.9310%, 29.7237% 和57.3454%。

然后,根据最大似然估计法,不断进行下一状态筛选,直到合成候选工况达到预定的时间区间长度1200秒,下图10是得到的汽车行驶工况曲线。

(a)合成汽车行驶工况曲线

(b)合成汽车行驶工况曲线与原始数据的对比

图10汽车行驶工况曲线

根据隐马尔可与夫链模型,选取了编号为4, 72, 134, 211, 294, 439, 546的候选片 段拼接成图10 (a),随机截取一段相同长度的原始信号,两个信号(橙色为)对比可以 发现:本文合成的信号除时间延迟滞后或提前以外,能较为完整拟合原始数据片段。

  1. 模型检验

(1)基于特征指标的相对误差检验

下表17是选取的候选工况与实际行驶数据的特征指标的相对误差对比,以文件1为 例,同理,文件2和文件3也可以由该方法得到。

表17特征的相对误差对比

特征指标

实际行驶数据

代表工况

相对误差/%

27.9579

26.79

4.177%

34.6812

35.201

-1.499%

1.2163

1.32

-8.526%

-1.4743

-1.52

-3.100%

0.1939

0.181

6.653%

0.3949

0.3966

2.892%

0.3149

0.3144

1.915%

0.0964

0.082

5.432%

n

174507

174200

0.176%

4.8788 xlO-6

0.00005

-2.484%

23.6214

22.67

4.028%

1.2365

131

-8.032%

1.5210

1.49

3.530%

109.9

110

-0.091%

55.7

54.7

1.795%

-7.7

-8.3

-7.792%

根据上表的相对误差数据,可知:汽车实际行驶特征指标与代表的工况特征指标的相对误差绝对值控制在8.032%。同时,说明了汽车实际行驶状况与片段运动学的16个特征 指标基本一致,该模型的效果较好。

(3)工况模型对比分析

问题三分别建立了基于改进的k-means聚类和隐马尔科夫链的汽车行驶工况模型和基于多目标0・1线性规划的汽车行驶工况模型,得到下表18为两种模型的相对误差效果。

表18相对误差效果

特征指标

模型1

模型2

35.201

39.421

n

174200

180130

0.00005

0.00028

22.67

26.71

1.31

2.48

1.49

2.04

110

143

54.7

60.54

-8.3

-9.46

26.79

29.26

1.32

5.49

-1.52

-3.87

0.181

0.341

0.3966

0.912

0.3144

0.645

0.082

0.312

根据上表,可以明显地看出模型2的16个特征指标值较模型1的差距较大。故利用 改进的k-means聚类和隐马尔科夫链的汽车行驶工况模型效果较好;然而,利用多目标0-1 线性规划求解汽车行驶工况模型使用较少,是本文提出的一大创新点。后期可通过先进行主成分分析,减少特征指标个数,再进行多目标0-1线性规划模型求解可能效果会有所提高。

七、模型评价

7.1模型的优点

(1)本模型采用了较为创新的方法,从数据本身和概率论的角度,分别建立了基于多目标0-1线性规划求解汽车行驶工况的模型,以及改进的k-means聚类和隐马尔科夫链模型,得到的检验效果较好,并且基于多目标0-1线性规划模型,目前使用该模型进行汽车行驶工况研究的实践甚少,是本文提出的一大创新点。

(2)较为准确地构建了一条误差较小的汽车工况曲线,通过该曲线可判断出汽车在4 种工况状态下的平均速度,平均加速度等16个特征指标,实现了从隐信息(工况分析)表征显信息(汽车车速)的目标。

(3)在数据预处理上,处理较为完整,将速度高于120km/h的记录数进行删除,并且将时间间隔大于1秒的记录也进行全部删除,保留了85%的原始采集数据,对后续汽车行驶工况曲线的构建起到较好的作用。

7.2模型的不足

(1)由于时间有限,在建立多目标0-1线性规划模型的时候,没有先进行PCA分析,对特征指标进行降维,导致目标函数过多,可能会引起求解的误差较大。

(2)由于问题一数据预处理的过程较为复杂,可能出现数据处理不彻底,导致运动学片段划分出现偏差。

(3)模型采取了16个特征指标进行分析,未考虑到降维和未降维对模型求解产生的影响。

7.3模型的改进

(1)后期可通过先进行主成分分析,通过降维减少特征指标的个数,再进行多目标 0-1线性规划模型求解可能效果会有所提高。

(2)可以从小波分析、SOM神经网络模型、三次样条插值,高阶拟线性方程组(从曲线拟合角度出发,不需要进行运动学片段的划分,通过加速度a以及车辆工况状态等数据直接对汽车行驶工况曲线进行时间序列的拟合)。

(3)可以进一步地扩展,根据汽车行驶工况曲线和道路路径划分(由GPS根据经纬度解析地址,通过地址划分道路类型)对瞬时油耗进行分析。

八、参考文献

[l]Lin J, Niemeier D A. Exploratory analysis comparing a stochastic driving cycle to California's regulatory cycle[J]. Atmospheric Environment, 2002, 36(38):5759-5770.

[2]Karande, S., Olson, M.» and Saha, B. Development of Representative Vehicle Drive Cycles for Hybrid Applications^]. SAE Technical Paper 2014-01-1900, 2014,

doi: 10.4271/2014-01-1900.

[3]Knez M, Muneer T, Jereb B, et al. The estimation of a driving cycle for Celje and a comparison to other European cities[J]. Sustainable Cities and Society, 2014, 11:56-60.

[4]Ho, Sze-Hwee, Wong, Yiik-Diew, Chang, Victor Wei-Chung. Developing Singapore Driving Cycle for passenger cars to estimate fuel consumption and vehicular emissions [J]. Atmospheric Environment,2。14,97:353-362.

[5]石琴,仇多洋,周洁瑜.基于组合聚类法的行驶工况构建与精度分析[J].汽车工程,2012 3(2): 164-169.

⑹郑殿宇,吴晓刚,陈汉,等.哈尔滨城区乘用车行驶工况的构建[J].公路交通科技,2017, 34(4): 101-107.

⑹石琴,郑与波,姜平.基于运动学片段的城市道路行驶工况的研究[J].汽车工程,2011 9(3): 256-261.

⑺苗强,孙强,白书战,等.基于聚类和马尔可夫链的公交车典型行驶工况构建[J].中国公路学报,2016, 29(11): 161-169.+

网余曼,赵轩,魏朗,等.基于FCM聚类算法的电动车城市循环工况构建[J].公路交通自技,2018, 35(10): 140-149.

[9]姜平,石琴,陈无畏,等.基于小波分析的城市道路行驶工况构建的研究[J].汽车工程, 2011 18(1): 70-73.

[10]杜爱民,步曦,陈礼燔,等.上海市公交车行驶工况的调查和研究[J].同潸大阜阜辍 (自然科阜版),2006, 34(7): 943-946.

[11]张璇,刘鹏.一种汽车工况构建中的数据预处理方法[J].汽车实用技术,2017 (10): 258-260.

[12]姜平.城市混合道路行驶工况的构建研究[D].合肥:合肥工业大学,2011 24(11):101-108.

[13]张锐.城市道路汽车行驶工况的构建与研究[D].合肥:合肥工业大学,2009 34(4): 1101-1107

[14]姜平,石琴,陈无畏.聚类和马尔科夫方法结合的城市汽车行驶工况构建[J].中国机械工程,2010 21(23): 2893-2897.

[15]郑与波,石琴,王世龄.合肥市汽车行驶工况的研究[J].汽车技术,2010 35(10): 34-39.

[16]陈弘,刘海,乔胜华,王亚飞.基于三次样条插值的车辆行驶数据分析.汽车技术. 2013(8):54-7.弘,刘海,乔胜华,王亚飞.基于三次样条插值的车辆行驶数据分析.汽车技 术.2013(8):54-7.

[17]高英,郭彦平,葛渭高.二阶拟线性微分方程组边值问题的三个对称正解.系统科学与 数学.2004;24(4):513-519.

[18]姜平,石琴,陈无畏.基于马尔科夫的城市道路行驶工况构建方法[J].农业机械学报,2009 24(11):26-30.

你可能感兴趣的:(matlab)