交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结

大概读了一下,第6节小波分析那里实在没有看懂。
如果有理解不对的地方欢迎批评指正。

建模方法

交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结_第1张图片
这篇论文选用的是时间序列模型和小波理论,小波理论那里我实在没看懂,说说他基于时间序列模型的组合建模方法,这是选择时间序列模型的理由:
交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结_第2张图片
作者是将整个交通流数据分解为四个分项(即从四个角度去看待的交通流数据):周期分项、趋势分项、线性分项和非线性分项:
交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结_第3张图片
其中周期分项就是交通流呈现出的周期性(比如每天肯定会有早晚高峰、每周肯定都是周末车流量大,交通流肯定是呈周期性变化的,每个周期之间都会有相似性)。用的是谱分析,也就是空间坐标系到极坐标系上的分解:
交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结_第4张图片
趋势特征就是每天肯定都会有早、晚高峰,高峰期车流量会比非高峰期大,这就是数据的趋势。
周期分项和趋势分项都是从宏观上看数据,和数据样本的属性关系比较大(可能大城市高峰期时间更长,小城市高峰期时间更短),你换一组别的地方的交通流数据,可能就会有过拟合的问题,属于不同样本自带的属性,对于训练可以运用于多个交通流样本的泛化模型是不利的。

所以我们把他去掉,然后分析线性分项和非线性分项。
线性分项适用于非高峰期数据,这里的数据比较平稳,实质上是对序列均值的分析;而非线性分项主要用于分析高峰期数据,这里的数据波动情况较大。

得出的结论:
交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结_第5张图片
其中周期和趋势具有长相关性,我的理解就是这两项是宏观的,是和数据样本本身的情况密切相关的,可能对于这一组数据是一个情况,对于另一组数据就是另一种情况了。而线性和非线性分项是微观的,是与数据样本相对独立的,较为纯粹的“交通流”的、内在的。所以周期和趋势由于其与数据样本的高相关性、会削弱模型对于不同样本数据的泛化能力。

数据预处理

主要是两点:
1.指数平滑法处理缺失值和异常值:
交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结_第6张图片
在这里插入图片描述
2.min-max归一化与z-score归一化
z-score归一化由于考虑到了方差,相比min-max归一化能够更好的处理极值过分影响整体数据的情况

定义

1.基础量:交通流量
交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结_第7张图片
2.占有率,其实就是观测时间内有车通过的时间占比:交通流分析1:《基于大数据的城市公路交通流短时预测研究_张红》阅读总结_第8张图片

你可能感兴趣的:(大数据,深度学习,机器学习)