本专栏使用的数据集为 风速预测的时间序列数据
,该数据集包含一个气象站内嵌入的5个天气变量传感器阵列的 6574
个每日平均样本。该设备位于油田21M处的一个非常空旷的区域。
数据记录时间为 1961-01-01 - 1978-12-31
,提供了Ground Truth日平均降水量、最高和最低温度以及草地最低温度。
在这个数据集中,每天记录 8
个不同的天气统计量(比如气温、气压、湿度、风速等),时间间隔为1天,也就是每天的数据为1个样本,每个样本的特征维度为8。
注意:如果没有特殊任务需求,专栏中的每个项目都使用这个数据集方便学习,建议初学者使用本文的数据集,方便项目调试,如果理解之后可以换成自己的数据集,例如股票类、电力负荷类这种时序数据集。
数据集样式如下:
WIND IND.1 RAIN IND.2 T.MAX IND.3 T.MIN T.MIN.G
DATE
1961-01-01 13.67 0 0.2 0.0 9.5 0.0 3.7 -1.0
1961-01-02 11.50 0 5.1 0.0 7.2 0.0 4.2 1.1
1961-01-03 11.25 0 0.4 0.0 5.5 0.0 0.5 -0.5
1961-01-04 8.63 0 0.2 0.0 5.6 0.0 0.4 -3.2
1961-01-05 11.92 0 10.4 0.0 7.2 1.0 -1.5 -7.5
... ... ... ... ... ... ... ... ...
1978-12-27 14.46 0 16.8 0.0 9.8 0.0 4.0 0.0
1978-12-28 14.33 0 16.0 0.0 9.1 0.0 8.5 8.0
1978-12-29 19.17 0 14.7 0.0 5.0 0.0 3.5 3.2
1978-12-30 18.08 0 4.9 0.0 2.9 0.0 0.3 -0.5
1978-12-31 19.25 0 0.5 0.0 1.2 1.0 -1.5 -3.0
6574 rows × 8 columns
对于本项目专栏,如果没有特殊说明,我们将 WIND
作为我们的预测目标,也就是基于数据去预测每一天的平均风速。
对于项目中我们使用的特征主要为后8个,第一个特征 DATE
是时间刻度,在数据处理及建模时我们是不使用的。
注意:本数据集由于存在空值,为了方便,仅仅采用将带有空值的行删除的处理方式,用户可以根据自己的能力进行处理,可以采用人工经验填补或者是采用算法填补等等。
特征 | 特征含义 |
---|---|
DATE | 时间刻度 |
WIND | 平均风速(节) |
IND.1 | 第一个指标值 |
RAIN | 降水量(mm) |
IND.2 | 第二个指标值 |
T.MAX | 每日最高温度(°C) |
IND.3 | 第三个指标值 |
T.MIN | 每日最低温度(°C) |
T.MIN.G | 09utc草最低温度(°C) |
高精度、可靠的风速预报是气象学家面临的挑战。由对流风暴引起的强风,造成相当大的破坏(大规模森林破坏、停电、建筑物/房屋损坏等)。雷暴、龙卷风以及大冰雹、强风等对流事件是有可能扰乱日常生活的自然灾害,特别是在有利于对流启动的复杂地形上。即使是普通的对流事件也会产生强风,造成致命和昂贵的损失。因此,风速预测是一项重要的工作。
本数据集来源于 Kaggle
上的风速预测竞赛,如果有需要的朋友可以到该竞赛网站下载 https://www.kaggle.com/datasets/fedesoriano/wind-speed-prediction-dataset,由于有些用户的网络可能无法访问该网站,可以给我邮箱,私发给你。
该数据集源于以下文章,如有侵权,后台联系删除。
fedesoriano. (April 2022). Wind Speed Prediction Dataset. Retrieved [Date Retrieved] from https://www.kaggle.com/datasets/fedesoriano/wind-speed-prediction-dataset