METR-LA数据集介绍

METR-LA(Metro Traffic Los Angeles)数据集是一个用于交通流量预测的常用数据集,主要用于研究和评估交通预测算法的性能。该数据集包含了洛杉矶地区的交通传感器数据,可以用于建立和验证交通流量预测模型。

数据格式:

METR-LA数据集的格式通常是时间序列数据,其中包含了交通传感器在不同时间点上的流量信息。常见的数据格式可能包括以下几列:

  • timestamp: 时间戳,表示观测的时间点。
  • flow(或类似指标): 表示在该时间点上的交通流量,通常是车辆通过传感器的数量。
  • 其他特征: 可能包括其他相关的特征,如速度、密度等,以更全面地描述交通状况。

例子:

下面是一个简化的METR-LA数据集的示例,假设有三个传感器,每隔15分钟记录一次交通流量:

timestamp, sensor_1_flow, sensor_2_flow, sensor_3_flow
2022-01-01 00:00:00, 150, 200, 180
2022-01-01 00:15:00, 160, 210, 190
2022-01-01 00:30:00, 155, 205, 185
...

在这个例子中,每一行代表一个时间点的交通流量观测,其中 timestamp 是时间戳,而 sensor_1_flowsensor_2_flowsensor_3_flow 分别表示三个传感器在该时间点上的交通流量。这种格式可用于训练和评估交通流量预测模型。实际METR-LA数据集可能包含更多的信息和特征。

以我所用的metr-la为例:

data = np.load("D\data\\val.npz")
array_names = data.files
print("Arrays in the file:", array_names)

for array_name in array_names:
    print(f"array:{array_name}")
    print(data[array_name])

输出结果:

Arrays in the file: ['x', 'y', 'x_offsets', 'y_offsets']
array:x
[[[[62.42857143  0.24305556]
   [66.42857143  0.24305556]
   [68.          0.24305556]
   ...
   [62.57142857  0.24305556]
   [65.42857143  0.24305556]
   [64.85714286  0.24305556]]

  [[62.77777778  0.24652778]
   [61.11111111  0.24652778]
   [68.33333333  0.24652778]
   ...
   [62.22222222  0.24652778]
   [66.          0.24652778]
   [66.33333333  0.24652778]]
...
array:y
[[[[67.875       0.28472222]
   [65.75        0.28472222]
   [62.875       0.28472222]
   ...
   [40.375       0.28472222]
   [66.5         0.28472222]
   [54.625       0.28472222]]

  [[67.55555556  0.28819444]
   [65.77777778  0.28819444]
   [61.33333333  0.28819444]
   ...
   [40.55555556  0.28819444]
   [58.77777778  0.28819444]
   [49.33333333  0.28819444]]
...
array:x_offsets
[[-11]
 [-10]
 [ -9]
 [ -8]
 [ -7]
 [ -6]
 [ -5]
 [ -4]
 [ -3]
 [ -2]
 [ -1]
 [  0]]
array:y_offsets
[[ 1]
 [ 2]
 [ 3]
 [ 4]
 [ 5]
 [ 6]
 [ 7]
 [ 8]
 [ 9]
 [10]
 [11]
 [12]]

  1. x' 和 'y' 数组: 这可能是输入('x')和输出('y')的时间序列数据。

  2. 'x_offsets' 和 'y_offsets' 数组: 这些数组可能包含有关输入和输出时间序列的偏移信息.

输出维度则为:

array:x
(3425, 12, 207, 2)
array:y
(3425, 12, 207, 2)
array:x_offsets
(12, 1)
array:y_offsets
(12, 1)
  1. 时间步长: 3425 表示数据集中有 3425 个时间步长的数据点。
  2. 时间序列长度: 12 表示每个时间点上有 12 个时间序列。
  3. 特征维度: 207 表示有 207 个传感器。
  4. 两个数值: 2 表示传感器采集的信息。这两个数值可能代表交通流量的两个方面,如车辆速度和流量。

你可能感兴趣的:(人工智能,机器学习,pytorch)