针对Informer中时序数据ETT油温数据分析

针对Informer中时序数据ETT油温数据分析

  • 油温数据介绍
  • 数据问题介绍
  • 数据分析

油温数据介绍

电力变压器油温数据,由国家电网提供,该数据集是来自中国同一个省的两个不同县的变压器数据,时间跨度为2年,原始数据每分钟记录一次(用 m 标记),每个数据集包含2年 * 365天 * 24小时 * 60分钟 = 1,051,200数据点。由于数据量的庞大,将数据粒度改为每15分钟1个数据点,记为ETTm1、ETTm2,或一个小时级别粒度的数据集变体使用(用 h标记),记为ETTh1、ETTh2。

每个数据点均包含8维特征,包括数据点记录日期,预测目标值oil temperature和6个不同类型功率负载特征。
针对Informer中时序数据ETT油温数据分析_第1张图片

数据问题介绍

电力分配问题是电网根据顺序变化的需求管理电力分配到不同用户区域。但要预测特定用户区域的未来需求是困难的,因为它随工作日、假日、季节、天气、温度等的不同因素变化而变化。现有预测方法不能适用于长期真实世界数据的高精度长期预测,并且任何错误的预测都可能产生严重的后果。因此当前没有一种有效的方法来预测未来的用电量,管理人员就不得不根据经验值做出决策,而经验值的阈值通常远高于实际需求。保守的策略导致不必要的电力和设备折旧浪费。值得注意的是,变压器的油温可以有效反映电力变压器的工况。因此预测变压器的油温同时可以设法避免不必要的浪费。

此数据集可以用来预测电力变压器的油温并研究电力变压器极限负载能力。

数据分析

通过生成的探索性分析报告可以看出数据中的一些信息:

  • **概要:**数据类型,唯一值,缺失值,0值的数量
  • **分位数统计:**最小值、最大值、中位数、各分位值
  • **描述性统计:**均值、众数、标准差、绝对中位差、变异系数、峰值、偏度系数
  • **各值出现的数量:**通过直方图进行展示
  • **相关性分析可视化:**绘制交互图了解变量间交互关系,Spearman, Pearson等矩阵相关性色阶图突出相关的变量

针对Informer中时序数据ETT油温数据分析_第2张图片

针对Informer中时序数据ETT油温数据分析_第3张图片

0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

通过对各种相关性图的分析,可以看出各个变量间的相关关系,将相关性分为极强、强、中等、弱、无相关性这几种。本数据中的一些具体相关关系为:

HUFL 与 MUFL 具有极强相关性,与 LUFL 具有弱相关性,与预测变量 OT 无相关性。
HULL 与 MULL 具有强相关性,与 LULL 具有中等相关性,与 LUFL 和预测变量 OT 弱相关性。
MUFL 与 HUFL 具有极强相关性,与 MULL 和 LUFL 具有弱相关性,与预测变量 OT 无相关性。
MULL 与 HULL 具有强相关性,与预测变量 OT 弱相关性。
LUFL 与 LULL 具有中等相关性,与预测变量 OT 无相关性。
LULL 与 LUFL 具有中等相关性,与预测变量 OT 弱相关性。

| 与OT相关性 | HUFL | HULL | HULL
|–|–|

与OT相关性 HUFL HULL MUFL MULL LUFL LULL
无相关性 弱相关性 无相关性 弱相关性 无相关性 弱相关性

可以看出输入变量与输出目标的一些相关性的强弱,机器学习后续训练模型时会针对这些关系进行相关“学习”。

你可能感兴趣的:(数据分析,算法)