二十七、综合案例数据预处理

1. 综合案例数据预处理

1.1 电力窃漏电综合案例

  • 数据清洗:去掉冗余数据
  • 缺失值处理:填充缺失值
  • 数据变换:窃漏电评价指标体系
  • 构建专家样本:构建专家样本

2. 数据清洗

2.1 窃漏电数据预处理

  • 原始数据中并不是所有的数据都需要进行分析,因此在数据处理时,需要将冗余的数据进行过滤。
    二十七、综合案例数据预处理_第1张图片
  • 非居民用电类别不可能存在窃漏电现象,需要将非居民用电类别数据过滤掉;
  • 结合本业务的实例,节假日用电了与工作日项目,会明显降低,可以过滤节假日的用电数据。

窃漏电案例数据集详细信息

  • 在原始计量数据,特别是用户电量抽取过程中,发现存在缺失的现象。若将这些数据抛弃掉,会严重影响供出电量的计算结果。
    二十七、综合案例数据预处理_第2张图片

3. 缺失值处理

  • 首先从原始数据集中确定因变量和自变量,取出缺失值钱后5个数据,根据取出来的10个数据组成一组,然后采用拉格朗日多项式插值公示:

二十七、综合案例数据预处理_第3张图片

3.3 资源

资源库

pandas==0.24.2
scipy==1.1.0

数据集

missing_data.xls

二十七、综合案例数据预处理_第4张图片

3.3 数据补全代码

二十七、综合案例数据预处理_第5张图片

补全后的数据
二十七、综合案例数据预处理_第6张图片

4 数据变换

4.1 窃漏电评价指标体系的内容

  • 通过电力计量系统采集的电量、负荷、虽然在一定程度上能反映用户窃漏电行为的某些规律,但要作为构建模型的专家样本,特征不明显,需要重新构造。
    二十七、综合案例数据预处理_第7张图片
    电量趋势下降指标

    1. 窃漏电用户的用电量呈现下降的趋势
    2. 考虑前后几天作为统计窗口
    3. 利用电量做直线拟合得到斜率作为衡量

二十七、综合案例数据预处理_第8张图片

告警类指标

1. 与窃漏电相关终端报警主要有电压缺相、电压断相、电流反极性等告警

线损指标
1. 线损率是用于衡量供电线路的损失比例,同时可结合线户拓扑关系计算出用户所属线路在当体的线损率。
二十七、综合案例数据预处理_第9张图片

5 构建专家样本

专家样本数据

  • 对2009年1月1日至2014年12月31日所有窃漏电用户及正常用户的电量、告警及线损数据和该用户在当天是否窃漏电的标识,按窃漏电评价指标进行处理并选取其中291个样本数据,得到专家样,下图是样本数据。
    1日所有窃漏电用户及正常用户的电量、告警及线损数据和该用户在当天是否窃漏电的标识,按窃漏电评价指标进行处理并选取其中291个样本数据,得到专家样,下图是样本数据。
    二十七、综合案例数据预处理_第10张图片

你可能感兴趣的:(数据挖掘,人工智能)