大数据在电力行业的应用案例100讲(十四)-基于CBLOF算法的用电异常用户识别

前言

在实际业务开展中使用有监督学习方法识别用电异常用户,存在较多的隐形成本。本文运用用户尖、峰、平、谷各个时间段的日电量数据,提出一种无监督学习算法识别用电异常用户,简单高效助力电网企业日常计量的异常数据治理方法。

背景及意义

常规的用电异常用户识别,是在用户标签已知的情况下,使用分类算法进行用电异常用户监测。事实上,如果使用有监督学习方法识别用电异常用户,意味着需要维护“用户用电异常”或“用电正常”的标签。在实际工作中,用户的标签一般需要现场或者地市专工手动维护。所以,用户标签的维护有一定的维护成本。

因此,在实际应用中,使用有监督学习方法识别用电异常用户,存在较多的隐形成本。而使用无监督识别的方法做用电异常用户识别,能很好地规避上述问题,达到简单高效的效果。

总体设计思路

在算法选择上,选择CBLOF作为异常用户识别算法。CBLOF是Cluster-based Local Outlier Factor简称,即基于聚类的本地异常因子识别。

该算法的基本思想是:数据可能会在多个不同的地方聚集,形成簇。当一个点越接近大簇时,是正常点的概率就越高,反之当一个点远离大簇时,是正常点的概率就越低。

在CBLOF里面,只要套一个聚类算法,就能得到这些簇。一般会用k-means算法,距离可以采用欧氏距离。

从业务定义上来说,文中所说的用电异常&#

你可能感兴趣的:(大数据在电力行业的应用案例,算法,大数据,聚类)