Artificial intelligence based anomaly detection of energy consumption in buildings

本文是对《Artificial intelligence based anomaly detection of energy consumption in buildings: A review, current trends and new perspectives》的文字部分翻译,图表请查看原文。

基于人工智能的建筑能耗异常检测:综述、当前趋势和新观点

  • 摘要
  • 1. 引言
  • 2. 异常检测方法的回顾
    • 2.1 回顾
      • 2.1.1 非监督检测(U)
      • 2.1.2 监督检测(S)
      • 2.1.3 集成方法(E)
      • 2.1.4 特征提取(F)
      • 2.1.5 混合学习(H)
      • 2.1.6 其他技术
    • 2.2 异常检测水平
    • 2.3 应用
    • 2.4 计算平台
    • 2.5 使用AI的异常检测示例
  • 3. 关键分析与讨论
    • 3.1 讨论
    • 3.2 基于人工智能的异常检测技术的相关性
    • 3.3 挑战与局限
    • 3.4 市场驱动因素与障碍
  • 4. 当前趋势和新观点
    • 4.1 当前趋势
      • 4.1.1 考虑其他数据源
      • 4.1.2 非侵入性异常检测
      • 4.1.3 标记的数据集集合
      • 4.1.4 衡量绩效的统一指标
    • 4.2 新观点
      • 4.2.1 可解释的深度异常检测
      • 4.2.2 边缘深度异常检测
      • 4.2.3 深度增强学习
      • 4.2.4 多模态异常可视化
      • 4.2.5 可复现研究平台
      • 4.2.6 隐私保护机器学习
      • 4.2.7 可解释的RS与新冠肺炎大流行
  • 5. 结论

摘要

住宅建筑中安装的分表和智能传感器每天都会产生大量数据。如果利用得当,这些数据可以帮助终端用户、能源生产商和公用事业公司检测异常用电量并了解每个异常的原因。因此,异常检测可以阻止一个小问题变得越来越严重。此外,它将有助于更好的决策,以减少能源浪费,促进可持续和节能行为。在这方面,本文深入回顾了基于人工智能的建筑能耗异常检测框架。具体而言,本文进行了广泛的调查,其中引入了一种综合分类法,根据所采用的不同模块和参数对现有算法进行分类,例如机器学习算法、特征提取方法、异常检测级别、计算平台和应用场景。据作者所知,这是第一篇讨论建筑能耗异常检测的综述文章。向前推进,深入讨论了重要发现以及尚未解决的特定领域问题、困难和挑战,包括缺乏:(i)异常功耗的精确定义,(ii)注释数据集,(iii)评估现有解决方案性能的统一指标,(iv)再现性平台和(v)隐私保护。接下来,讨论了对当前研究趋势的见解,以扩大异常检测技术的应用范围和有效性,然后得出引起重大关注的未来方向。本文为了解当前基于人工智能的能耗异常检测技术进展提供了全面的参考。

1. 引言

气候变化是影响世界人口的危险困境。全世界近80%的能源是由化石燃料生产的。除了寻找绿色能源外,降低总能耗百分比是至关重要的。实现这一目标的一个显著方法是通知终端用户其用电模式。因此,消耗者可以改善他们的行为,改变他们的消耗习惯,以减少能源浪费,促进可持续的绿色能源生态系统。这是完全可能的,特别是如果推荐系统与异常检测模块相结合。因此,将生成个性化和上下文相关的建议并传达给最终用户,以帮助他们采取更可持续的能源使用行为。在这方面,世界各国政府已经认识到能源效率的重要性,以及终端用户在削减整个能源支出方面可以发挥的主要作用。
另一方面,建筑行业代表着世界各地的主要能源消耗者。具体而言,建筑占全球总发电量的40%以上,这一比例已转化为全球总二氧化碳排放量的30%以上。因此,减少建筑环境中的电力消耗绝对可以支持世界范围内迫切需要的电力消耗和相关环境利益的减少。然而,降低建筑物的电力消耗并不简单,而且是一项具有挑战性的任务,因为每个建筑物都需要电能来运行。尽管人们对开发零能源建筑的兴趣越来越大,但相关的想法才刚刚起步,在发达国家的有限地区刚刚得到验证。在这种情况下,目前可用的潜在选择是提高能源意识,优化建筑物中使用的电器的操作,因为后者严格按照预期目标消耗所需的能源,即防止能源浪费。根据最近的研究可能会将80%-90%的时间花在室内环境中(以及广泛的一些意外情况,如新冠肺炎大流行),这会极大地影响他们的能量消耗水平,尤其是如果他们表现出疏忽和粗心。
有效的反馈有助于减少建筑能耗和二氧化碳排放。因此,向终端用户和建筑经理提供最新信息和个性化建议是制定优化能源使用的创新方法的初始阶段。此外,为了有效使用电力,必须捕获异常消耗行为。因此,通过实施能源监测系统和基准战略,可以缓解异常行为和足迹。因此,应制定能源消耗智能异常检测技术,以识别新形式的异常消耗行为。在建筑物中,电气设备或最终用户的异常行为可能是由于设备的错误操作、最终用户的疏忽(例如,空调打开时保持窗户打开导致房间内冷损失,或冰箱门打开导致制冷剂泄漏)、盗窃攻击、非技术损失等原因造成的。异常行为的发生可能导致更高的功耗,比其正常行为/操作时间更长的操作时间,和/或可能导致设备永久性故障。
各种研究工作已经证明,应该可以利用人工智能(AI)来检测由终端用户、设备故障或其他潜在原因产生的异常能耗行为。在过去的十年中,人工智能社区已尽一切努力准确、快速地检测异常功耗。然而,检测设备何时不能正常工作以及原因是什么也非常重要。此外,休假期间发生的能耗事件可能是真实的,或者与重复发生的事件相比更难处理,因此异常检测算法可能会将重复发生的故障视为“正常”故障。这使得能耗中的异常检测与其他应用场景非常不同,例如入侵检测、医疗异常检测等。这是因为(i)其他应用程序截然不同,因为如果未检测到异常,它们会产生严重的急性后果,而家庭能源异常可能会导致提取成本和每月能源账单的上涨,但不太可能危及生命;(ii)检测异常消耗后,应触发一系列定制建议,以帮助最终用户调整其能源消耗习惯,更换故障设备,识别能源基础设施上的网络攻击者,执行法律程序,并采取与最终用户疏忽相关的其他措施(例如,关闭冰箱门,在空调工作时关闭房间门窗等)。这些措施在不同方面可能非常有用,因为它们可以节省大量能源成本,并可以进一步防止不同类型的灾害(例如房屋火灾)。
基于异常检测方案的高效节能系统需要解决各种问题,然后才能得到更广泛的采用。挑战之一是如何设计可扩展的低成本解决方案,同时保持权力下放和安全。其他当代问题包括隐私保护、消耗者匿名以及基于异常检测系统的实时实现。近年来,为创新异常检测策略做出了重大努力,大量项目和框架正在进行中,这些项目和框架已在科学期刊文章、专利、报告和行业白皮书中描述,主要由学术界和行业合作伙伴编制。此外,各种基于人工智能的异常检测技术已成为新的节能解决方案的主题。然而,我们断言,仍然需要基于不同来源进行系统和全面的审查,以调查机器学习在能源消耗异常检测中的适用性的挑战、问题和未来前景。在这种情况下,本框架力求通过就作者所知,首次提出广泛及时的建筑物能耗异常检测调查,填补这一知识空白。明确地说,为了为这一努力奠定基础,提出了以下贡献:

  • 首先,我们概述了现有的建筑能耗异常检测方案,其中根据用于识别异常的机器学习模型的性质、特征提取、检测级别、计算平台、应用场景和隐私保护,采用综合分类法将其分为不同类别。此外,我们还讨论了确定异常检测系统技术特性的各种系统架构和相关模块。目前关于能源消耗异常检测的知识中有相当一部分不仅来自传统的学术来源(即期刊文章和会议记录),还来自工业产出、授予的专利和白皮书。在本框架的第一部分中,我们重点从上述来源中提取有价值的信息,以便读者了解能耗异常检测的技术挑战。更具体地说,每个类别的优点和局限性以及在不同情况下的能力都会被彻底讨论。
  • 其次,我们通过深入讨论所呈现的最新技术,进行批判性分析和描述。除了市场障碍外,我们还探讨了与异常检测系统的开发和实施相关的当前困难和限制问题。
  • 第三,我们描述了当前的趋势,并确定了异常检测方案丰富化方面的新挑战,新的应用和功能可能对建筑能耗产生积极影响,其中考虑了额外的数据来源(例如占用模式、环境条件等),结合其他技术(如非侵入式负载监测(NILM)),收集注释数据集并使用统一的评估指标。
  • 最后,我们得出了一组需要在四个方面更加重视的未来研究方向,为了(i)克服异常检测算法的实际缺陷,(ii)改进异常检测解决方案的开发,以实现更好的节能生态系统,(iii)改进创新异常检测系统在现实场景中的部署,以及(iv)保护最终用户的隐私。

本文的其余部分组织如下。第2节概述了建筑能耗中最先进的异常检测技术,其中针对各个方面提出了详尽的分类。此外,还强调了它们的局限性和缺点。接下来,第3节将根据所进行的概述进行批判性分析和讨论,其中描述了困难、限制和市场障碍。接下来,第4节分为两部分,其中第4.1节描述了异常检测方法的新应用和功能方面的开放研究挑战。尽管如此,第4.2节为推进未来异常检测系统提供了一系列有见地的观点和新兴概念。最后,第5节得出了相关结论。

2. 异常检测方法的回顾

2.1 回顾

本节描述了基于用于检测异常的已实现AI算法的性质的现有异常检测方法。图1从不同方面说明了建筑能耗异常检测技术的提出分类。

2.1.1 非监督检测(U)

它旨在检测以前未知的罕见消耗观察或模式,而不使用这些观察的任何先验知识。通常,这种检测假定总体消耗数据的异常模式数量很小,即小于20%。由于异常表示消耗者在训练阶段未知的异常值,因此在大多数情况下,除了定义该空间中的特定测量值以将消耗观察分类为异常或正常之外,检测异常消耗还简化为正常消耗行为的建模。无监督技术主要基于聚类、单类学习和降维算法。
U1.聚类:这是一种机器学习方案,用于将用电量数据划分为不同的聚类,从而有助于在未标记的数据集中(即使有许多维度)将其划分为正常或异常。这种异常检测策略以其简单性在不同的研究课题中引起了很多兴趣,例如网络中的入侵检测、物联网、传感器网络、视频监控中的可疑行为检测、银行系统中的异常交易检测和在线社交网络中的可疑帐户检测。此外,聚类具有从消耗的时间序列中学习和检测异常的能力,而无需明确描述。
为了区分实际异常和季节变化引起的真实变化,[31]中的作者提出了一种两步聚类算法。在第一步中,只考虑每个用户的能耗及其过去的变化,定期评估每个用户的异常分数,而在第二步中,通过考虑附近的能耗数据,调整该分数。在[32]中,引入了“集体异常”的概念,而不是指异常的事件,以描述事件的项目集,根据其外观模式,这些项目集可能是异常的。为此,在智能仪表数据流中应用了频繁项集挖掘和分类聚类以及聚类轮廓阈值方法。在[33]中,通过叠加k-means模型,将聚类和分类技术与并行计算能力相结合,采用了一个集成的可扩展框架,用于在高度一致的簇中分离异常事件和正常事件。再往前看,论文[34]中的作者选择了时间序列来研究时域中的异常检测,随后将异常分为与振幅和形状相关的异常。引入了一个统一的框架来检测这两种类型的异常,方法是使用模糊C均值聚类算法来揭示子序列中可用的正常结构,以及实施一个重建准则来衡量每个子序列与不同聚类中心的不同性。在[35]中,电力数据通过互k近邻(MNN)和k-means聚类算法进行处理,以减少测量样本的数量,然后分析消耗模式,以检测异常行为和恶意客户。最后,基于熵的异常检测方法代表了另一个聚类类别,在这一类别中,人们花费了一些精力来彻底理解使用基于熵的分析的检测力,例如[36,37]。
U2.单类分类:也称为单类学习(OCL)依赖于将初始功耗模式视为两组的一部分,即正(正常)和负(异常),然后尝试设计分类算法,而负组可能缺失、采样不足或不清楚。因此,OCL是一个具有挑战性的分类问题,比传统分类问题更难解决,传统分类问题试图使用属于所有组的训练消耗数据来区分两个或多个类别的数据。
文献中提出了不同的方案来检测基于OCL的异常消耗足迹。在[40]中,引入了一类支持向量机(OCSVM)来识别包含所有功率观测值的最小超球面。在[41]中,提出了一种基于核的一类神经网络(OCNN)来检测异常功耗。它融合了深度神经网络(DNN)的能力,用OCL推导出功率信号的渐进丰富表示,围绕正常功耗模式构建了一个紧密的包络。在[42,43]中,提出了两种不同的单类卷积神经网络(OCCNN)方法。他们有着相同的想法,即使用潜在空间中的零中心高斯噪声作为伪负类,并基于交叉熵损失训练模型,以学习所考虑类的精确表示以及决策边界。此外,还提出了一类随机森林(OCRF),用于在缺少标记数据时识别异常消耗,它基于分类器集成随机化基础。
U3.降维:在不同的机器学习应用中,降维可以作为一种低计算成本的分类方法,因为它可以去除不相关的功率模式和冗余。研究了多种技术来将功率数据分类为正常或异常,例如主成分分析(PCA)、线性判别分析(LDA)、二次判别分析(QDA)和多重判别分析(MDA)。
尽管PCA的提出主要是为了降低原始数据的维数,同时尽可能地保持数据之间的关系,但它也被用作分类器。例如,在被视为两类分类问题的异常检测问题中,PCA分类器估计正常类和异常类的主成分。接下来,针对正常类或异常类,根据这些主成分跨越的子空间内的能量模式投影设计分类器。此外,PCA也可以应用于多类异常检测的情况,正如[19]中描述的基于微矩的异常检测方法。因此,正常能源使用类别被划分为三个新类别,而非正常能源消耗类别被划分成两个新类别。总体而言,异常检测问题已成为5个不同类别的分类问题。总之,PCA适用于不同类别的能量观测分布在不同空间和方向的情况。
在[53]中,基于Karhunen–Loeve变换的PCA用于检测异常功耗。它依赖于估计每个消耗类别的主成分,然后通过将功率模式投影到与两个主要类别(即正常和异常)相关的主成分所分布的子集上,创建分类器。在[54]中,LDA通过区分不同的子类别来对功耗模式进行分类,并设计一个模型来根据相应的类别自动标记功耗模式。这是通过使用判别权重来分离LDA统计学习生成的超平面来实现的。在[55,56]中,部署了作为LDA变体的QDA,以实现与正常和异常信号群相关的功耗模式的非线性分离。最后,MDA主要用于根据初始功耗数据的线性组合构建判别轴(函数)。每个轴的设计都是为了最大化正常和异常类别之间的差异,同时考虑到它们不相关。

2.1.2 监督检测(S)

监督能耗异常检测需要使用标注数据集训练机器学习分类器(二分类或多类),其中标注了正常和异常功耗。尽管有监督的异常检测可以实现学术框架中所证明的高精度识别结果,但与无监督的方法相比,由于缺乏功耗注释数据集,其在现实世界中的应用仍然有限。图2说明了执行监督异常检测方法的主要步骤。
S1.神经网络:指使用深度学习或传统人工神经网络(ANN)检测正常和异常消耗模式。目前,深度异常学习(DAD)已用于各种研究课题,例如检测欺诈性医疗交易、识别视频流中的异常和检测信用卡欺诈。然而,基于DAD的解决方案的性能在某些情况下可能不是最优的,这是由于功耗数据集的不平衡特性(即功耗模式在正常和异常类别上的分布不均匀)。
在[60,61]中,自编码器和长短时记忆(LSTM)神经网络被合并,以识别不平衡和时间相关功耗数据集中的异常。类似地,在[62]中,作者使用变分循环自编码器检测时间序列功率足迹中的异常。接下来,Yuan et Jia使用堆叠稀疏自编码器从使用物联网收集的大规模功耗数据集和基于物联网的计量网络中提取高级表示。接下来,他们在分类阶段利用softmax捕获消耗异常,然后使用web应用程序向最终用户发送通知和警报。类似地,在[64]中,自编码器和微力矩分析用于检测异常能量使用。
另一方面,卷积神经网络(CNN)在不同的研究应用中证明了其有效性,与人工神经网络(ANN)算法相比,它在检测时间序列数据中的异常方面具有优越的性能。在[66]中,作者选择将CNN和随机森林相结合,以跟踪由于能源盗窃攻击而导致的能源消耗异常,从而帮助能源供应商解决与不正常能源使用和低效电力检查相关的问题。同样,Zheng等人提出了一种基于CNN的解决方案,该解决方案主要有助于使用功耗信号的2D表示识别能源盗窃的非周期性和正常能源消耗的周期性。使用同样的想法,CNN在[68]中通过在2D空间中表示时间序列时间/频率能量消耗信号,然后使用卷积学习异常特征来开发。接着向前看,在[69]中,多尺度卷积递归编码器–解码器(MSCRED)用于分析多变量时间序列观测值并检测异常。在[70]中,将受限波尔兹曼机器(RBM)与深度信念网络(DBN)合并,以构建基于DNN的异常检测框架。明确地说,维度缩减任务在前两个RBM层执行,然后被送入包括分类器的微调层,以从正常数据中分离异常。
此外,为了寻找创新的深度学习解决方案来处理异常检测数据集的不平衡特性,使用了生成对抗网络(GAN)。它可以建模不同类型的复杂高维数据,包括图像、时间序列和网络安全。不幸的是,它在检测建筑物异常耗电量方面的应用仍然非常有限。
循环神经网络(RNN)在分析时间序列数据方面非常胜任,能够表现时间动态行为。它被用于预测能源使用期间出现的异常情况,并将其与季节性、天气和假日相关性产生的偏差区分开来。例如,在[78]中,设计了一个基于RNN的异常检测系统,它可以从功耗模式中去除季节性和趋势,从而更好地捕获实际异常。在[79]中,作者重点阐述了一种异常检测方案,该方案能够应对由于家庭结构变化(例如,一个家庭转向另一个家庭住宅)而导致的概念漂移。为此,开发了一个基于LSTM的RNN模型,以利用终端用户最近/过去的消耗数据分析和预测其消耗行为。在[80]中,使用基于RNN和K-means的混合学习模型识别异常天数说明可疑消耗率。类似地,在[81]中,引入了使用RNN和分位数回归的混合模型来预测和检测异常功耗。
另一方面,为了向读者提供更多关于在能源消耗中使用深度学习进行异常检测的详细信息,图3显示了(EM)项目中提出的监督异常检测方案的流程图,该方案是使用DNN模型执行的。在此框架中,使用子仪表和智能传感器收集各种设备和占用模式的功耗数据。接下来,使用微观矩范式对收集的数据进行标记,其中消耗足迹被划分为五个消耗类别。接下来,在测试阶段使用新记录的未标记数据对DNN模型进行测试之前,使用标记数据集设计和训练DNN模型。
另一方面,使用ANN进行能耗异常检测主要是因为它能够从过去的消耗数据中学习和概括,以识别正常和异常行为。此外,当记录的数据由于各种原因而产生噪音时,ANN可以帮助解决异常检测问题,例如数据传输过程中或连接到智能电网的电器产生的噪音。在[84]中,通过采用基于多阶段ANN的解决方案来处理功耗异常的识别。后者包含一个离散小波变换以获得所需的特征,对这些特征应用方差分维(VFD)运算,利用VFD输出执行训练的ANN方案,最后是基于阈值的异常功耗模式检测。[85]中的工作提出了一个住宅框架,包括一个双混合一步进负荷预测器和一个基于规则引擎的能耗异常检测器。为了在线性和非线性回归中获得较高的异常检测精度,预测器融合了ANN和自回归积分滑动平均(ARIMA)模型的优点。
此外,通过使用多层感知器(MLP)和[86]中的分类技术跟踪消耗异常。类似地,在[87]中,为了预测不平衡数据中的恶意行为,基于MLP的解决方案在两个不同的数据集上进行了有效测试,以执行基于流的控制,保护最终用户的隐私。在同一方向上,为了保持可靠运行,[88]中讨论了工业建筑能耗的连续细粒度监测。明确地说,基于MLP的异常检测方案的目标是通过检测医药包装系统中的传感器数据异常。此外,[89]通过将人工免疫网络(AIN)和余弦径向基函数神经网络(RBFNN)相结合,研究了可应用于能量窃取跟踪的入侵检测,其中首先支持前者的多粒度版本,以揭示候选隐藏神经元,然后,后者基于梯度下降学习过程进行训练。此外,还介绍了基于极端学习机(ELM)的不同功耗异常检测框架。具体来说,ELM建立在单层前馈神经网络(SLFN)的基础上,用于对正常和异常类别进行分类。
S2.回归:指识别两个或多个功率变量类之间的关系,以产生一个模型参数集合,预测异常功率观测值的生成。在这种情况下,可以根据收集到的其他异常足迹预测异常功耗模式的产生。文献中引入了各种回归模型来识别建筑能耗的异常情况,包括线性回归、支持向量回归(SVR)、自回归模型、回归树和回归拟合。[94]中的作者建议采用基于线性回归的方法来确定各个场所的异常周期,并从前提数据中清除它们,以便对能源消耗模式进行精确评估。在同一方向上,[95]通过分析智能电表的时间数据流,设计了一个发现异常能耗模式的模型。具体来说,为了进行预测并绘制数据的非线性,保留了带有径向基函数的支持向量回归,并相应地评估实际能耗和预期能耗之间的差异。
由于存储了大量智能电表数据,利用这些信息进行异常检测使大数据问题成为人们关注的焦点,特别是在缺乏足够有效的实时异常检测系统来处理这一海量数据的情况下。为了纠正这种情况并促进能源相关决策,[96,97]中的研究描述了一种可扩展的体系结构,它将基于自回归预测的检测方法与新的lambda方案相结合,以迭代升级模型并进行实时异常检测。[98]中的工作旨在通过提出一种新的方案来减少异常功耗,该方案能够识别大量数据中的异常功耗。它遵循一个两阶段的处理过程,即预测和异常检测,其中,借助混合神经网络ARIMA日常消耗模型,在前一步中首先预测日常实时消耗,而采用两西格玛规则通过评估实际消耗和预测消耗之间的不匹配来定位异常。[65]中的框架解决了大规模数据流中的异常识别问题,这是部署传感器中的典型情况。在这个范围内,统计(即ARIMA)和基于CNN的方法都以残差的方式进行了整合,因此,融合可以弥补每种方法的不足并巩固其优势。在[88]中,由于观测数据上没有发现周期性模式,因此采用了数据驱动的方法。通过在预测阶段比较三种不同的回归变量(即回归树、随机森林和MLP),作者强调了回归树和随机森林在训练时间效率和模型可复制性方面的优势。
S3.概率模型:是最重要的机器学习工具之一,它们已被确立为一种有效的习惯用法,用于描述使用随机生成变量的能耗异常检测的现实世界问题,例如用概率关系表示的构建模型。时间序列模式的异常轮廓使用贝叶斯最大似然模型识别干净数据和噪声数据,而贝叶斯网络模型用于检测[102,103]中的异常分类和基于混合的功耗数据。在[104,105]中,使用统计算法通过基于标准偏差的极值识别来识别异常,而在[104]中,作者使用统计模型和聚类方案来检测功耗异常。在[106,107]中,提出了朴素贝叶斯算法来检测窃电攻击产生的异常。类似地,在[108]中,Janakiram等人部署了一个信念贝叶斯网络,以捕获数据之间的条件依赖性,然后识别异常。在[109]中,引入了基于广义加性模型的统计预测方法,以及时检测异常的能耗行为。
S4.传统分类:表示依赖于检测新功耗样本所属功耗类别(子总体)的模型,参考具有正常和异常功耗标签的消耗足迹训练集合。K近邻(KNN)、支持向量机(SVM)、决策树(decision tree)和逻辑回归(logistic regression)是著名的传统分类算法,它们在基于能量的应用或其他研究课题的最新技术中得到了广泛应用。
在[53,104]中,提出了基于KNN的启发式算法来检测异常功耗,而在[86]中,作者研究了KNN相对于其他机器学习分类器的性能,以识别异常功耗观察值。在[110,111]中,SVM被部署用于检测由于能源盗窃攻击而导致的异常情况。同样,在[112]中,提出了一种用于检测异常消耗数据和可疑客户的遗传SVM模型,其中遗传算法与SVM相结合。在[113]中,Zhang等人融合了SVM和粒子群优化技术,用于检测高级计量基础设施中的异常功耗。另一方面,在[114]中,引入了基于决策树的解决方案,以了解欺诈能源使用引发的能源消耗异常。类似地,在[115]中,开发了一个改进的决策树模型,以使用异常和正常类的密度检测异常消耗数据。向前推进,在[88]中,提出了一个决策树回归器,用于使用传感器数据检测异常功耗,而在[86]中,使用逻辑回归检测异常。

2.1.3 集成方法(E)

正如在各种框架[19,116]中所证明的那样,由于耗电数据的复杂性以及影响小时、日、周、月或年用电量的其他因素,没有任何异常检测方案能够通过低维子空间完美地识别所有异常。因此,使用集成学习可以解决一些相关问题,其中初始功率观测集被分割为多个子集,并且在这些子集上同时应用各种模型以得出潜在的异常。接下来,总结异常识别分数,或者选择最合适的分数来生成最终分数。
E1.增强:这是一组元算法,主要用于减少无监督学习的偏差和方差,其中弱分类器(学习者)转换为强分类器。通常,它们是以顺序形式构造的。弱分类器指的是与真实分类略微相关的情况。文献中提出了不同的增强方案来检测异常,其中包括bootstrap、gradient boosting machine(GBM)和gradient tree boosting(GTB)。
在[118]中,Zhang等人使用自举策略进行无标记学习过程,以检测多特征数据中能量数据的异常。在[119]中,引入了基于GBM的异常检测来模拟商业建筑的用电情况。同样,在[120]中,部署了网格搜索以捕获基于GBM的异常检测的最佳参数配置。在[121]中,作者通过使用基于GBM的方案识别电力消耗异常,预测了能源欺诈。在[122]中,研究了基于GTB的异常检测以及使用电力消耗定价数据的其他数据挖掘技术。
E2.打包:也称为引导聚合,它是一组元算法,用于提高几个弱分类器的准确性和稳定性。打包与聚合的不同之处在于,弱学习器的结构是平行的。此外,不同的检测方案可以应用于每个子系综,然后将其结果聚合起来,如[124]所示。随机森林、引导聚集及其变体是用于异常检测的著名的基于打包的集成学习方法。例如,在[125]中,Araya等人提出了一种基于自举聚合的异常检测方案,这有助于进行集成学习以识别能耗异常。在[126]中,引入了具有分裂选择准则的隔离林(SCiForest)算法,以检查最终用户的用电量是否异常或正常。在[66]中,使用随机森林方案检测能源网络中发生的非技术损失(NTL)。这主要是通过检测异常功耗和学习不同时段(即小时和天)的功耗差异来实现的。
在[127]中,部署了一个随机森林分类器来检测异常,同时考虑与准确度和误报率相关的性能度量。在[128]中,提出了一种多视图叠加集成(MSE)技术,用于学习在工业环境中使用不同物联网传感器收集的能耗异常。在[116]中,介绍了一种基于特征打包的异常检测方案。它依赖于根据从主高维特征集中提取的不同特征子集合训练多个分类器,从而将分类器的结果组合成一个独特的决策。在[129]中,在从初始特征随机派生出各种特征子集合后,识别出异常,并在将其融合为最终输出之前估计每个子集合的性能。

2.1.4 特征提取(F)

本部分主要讨论了特征提取方案如何通过以下方式帮助提高异常检测方法的性能:(i)在新空间(例如高维空间)中表示功耗观测值;(ii)利用适当的措施和功能(例如距离、密度)来区分正常消耗和非正常消耗;以及(iii)使用新的表示结构(例如,基于图的表示)表示消耗流程图。
F1.基于距离:是指根据每个模式与其相邻样本的距离来判断每个模式,从而检测异常消耗模式。显然,正常消耗观测通常具有密集的邻域,而异常消耗足迹远离其邻域点(即显示稀疏结构)。已经提出了各种框架来解决基于距离的能耗异常检测问题,其中通常采用无监督学习方法,而对记录的能耗数据没有任何分布假设。在这方面,在[131]中,通过分析每个功率观测值的最近邻的理论特性,提出了一种基于距离的异常检测。明确地说,然后参照一个称为要测量的距离的全局量来检测异常模式。同样在[132]中,使用基于欧氏距离和模糊分类方法的多特征融合检测智能电网中的功率异常。在[133]中,作者使用余弦相似性方法估计功耗观测值之间的相似距离,并检测可疑模式。接下来,他们根据阈值对产生的余弦距离数据进行排序,以识别异常消耗行为。
此外,在[134]中,提出了各种方法来解决数据流中基于距离的离群点检测(DODDS)问题,并在检测异常时比较了它们的性能,而不对功耗观测值进行任何分布假设。类似地,在[135]中,霍等人开发了一种基于距离的异常检测方法,其中部署了时空权衡策略以降低计算成本。而在[136]中,提出了一种基于分辨率的离群因子(ROF)方法来检测大规模数据集中的异常。它主要侧重于分析局部和全局特征的距离,以有效地检测异常数据。在[137]中,使用孤立森林(iForest)模型执行能耗异常检测过程。后者由Liu等人提出,作为ROF和局部异常因子(LOF)算法的竞争方法。
F2.时间序列分析:由于电力消耗数据被视为时间序列足迹,因此许多研究关注于制定异常检测问题是合乎逻辑的,例如基于标准信号分析寻找异常观测值。具体来说,这种异常检测依赖于检测意外的峰值、电平偏移、下降和不规则的信号形式。例如,在[139]中,提出了使用局部估计散点图平滑(LOESS)进行季节趋势分解以检测异常消耗点,其中引入了基于LOESS的季节趋势分解方案。它有助于将电力消耗时间序列样本分为三个分量,即季节、趋势和残差。
另一方面,值得注意的是,与此类相关的大多数异常检测方案都基于短期时间序列(STTS)分析。因此,在[141]中对功耗时间序列模式进行了日志分析,以检测早期预警系统中的实时异常。类似地,[142],提出了一种使用典型相关的基于特征提取的异常检测方案。它可以帮助检测不同类型建筑的异常情况,例如家庭、工作空间和工业区。在[143]中,使用时间序列分析识别智能电表数据中出现的异常,其中库克距离在阈值过程中展开,以确定观测值是正常还是异常。同样,在[144]中,提出了一种分层特征提取方法,以捕获由于窃电导致的时间序列消耗数据中的能耗异常。在[145]中,为了确定异常消耗行为,作者分析了不同的STTS特征,这些特征可以提供与典型行为偏差的宝贵细节。
另一方面,其他技术使用基于规则的算法来分析时间序列数据并检测异常功耗。例如,在[148]中,Yen等人引入了一种基于规则的方法来分析相电压,然后使用规则集合来确定哪些是异常模式。在同一方向上,在[149]中,基于规则的算法与线性规划方法相结合,以检测异常电力消耗,从而确定潜在的能源盗窃攻击和/或故障电表的位置。在[150,151]中,使用基于规则的算法检测异常功耗,该算法基于机器学习方法和节能专家的知识进行阐述。然后引入一组节能参数来跟踪异常情况。而在[152]中,基于规则的算法与改进的最近邻聚类方法相结合,以识别潜在的异常功耗行为。在[19]中,提出了一种基于微力矩的算法来检测两种功耗异常,这两种异常是由(i)过度功耗和(ii)终端用户在室外时的功耗引起的。后者浪费大量的能源用于一套设备,如空调、供暖系统、风扇、电灯和台式机/笔记本电脑。
F3.基于密度:是指调查每个耗电模式及其邻域的密度的异常检测方法。向前看,如果功率观测值的密度低于相邻观测值,则认为功率观测值异常。在这方面提出了各种技术;其中,LOF试图通过周围空间的密度获得外围观测结果;基于聚类的局部异常因子(CBLOF),依赖于使用其功耗簇的大小以及每个功率观测值与其最近簇之间的密度来检测异常;基于局部密度聚类的异常值因子(LDCOF),代表了CBLOF的改进版本,其中在分配异常分数时应用了局部密度概念。在这种情况下,在[157]中,引入了基于密度的带噪声应用空间聚类(DBSCAN)方法,以检测风电场环境中的异常功耗。总的来说,基于密度的异常检测在其他领域得到了广泛研究,例如活动监测、机器故障检测、金融和银行系统等,由于存在其他类型的异常,它们在检测异常能源使用方面的应用并不十分成功。具体而言,基于密度的方案只能基于分析能耗水平来识别能耗异常值,而不可能检测到其他异常情况,例如,终端用户不在时,某些设备(如电视、空调、灯、风扇等)的能耗。
F4.基于图:在应用基于图的方法检测功耗异常之前,应将功耗数据转换为基于图的结构。由于没有通用标准来建模此类数据,研究人员使用各种方案来设计此类表示。例如,[161,162]中的作者将房屋、发电机、电网、房间和电器视为节点;边缘代表特定房间和设备操作之间的现有连接。接下来,检测导致图拓扑结构变化的异常,而基于图的异常被定义为对标准模式的不可预见的偏差。
已经提出了不同的基于图的异常检测(GBAD)算法,其中结构数据的异常观察在表示实体、动作和关系的信息中识别。在[164]中,作者提出了一种基于图的方法来发现序列数据中的上下文异常。显然,图中的节点被聚集到不同的类别中,其中每个类只包含相似的节点。接下来,通过检查相邻观测值是否属于同一类别来检测异常。类似地,在[165]中,引入了一种基于并行图的异常值检测(PGBOD)技术来识别功率异常,其中数据在提取异常模式之前进行并行处理。

2.1.5 混合学习(H)

标记正常功耗比标记异常模式容易得多,因此,混合或半监督异常检测已在多个框架中采用。它利用可用的带标记的正常足迹(有标签)和与阳性类别相关的信息,从阴性类别中识别异常。这是深度自编码器(DAE)体系结构的情况,它仅用于学习正常的消耗模式(没有异常)。因此,使用来自正常类别的足够训练消耗观察值,自编码器可以为异常模式的正常观察值生成低重建误差。
在[168]中,提出了一种基于半监督支持向量机(semi-SVM)的异常检测解决方案,其中需要少量带标记的功耗模式来训练学习模型。如果检测到可疑的消耗模式,该系统还可以生成警报,这与终端用户的通常能源消耗习惯不同。而在[169]中,DAE和集合k近邻图(KNNG)相结合,开发了一个半监督异常检测系统,其中仅使用带标签的正常事件来训练学习模型。

2.1.6 其他技术

除了上述小节中介绍的内容外,还有其他类型的异常检测技术,它们建立在完全不同的策略上,包括可视化和压缩感知。
O1.可视化:通过将消耗足迹与视觉空间进行映射,为理解最终用户的消耗行为提供了有效的工具。在这方面,视觉专家利用感知技能帮助最终用户感知和解读数据中的消耗模式。此外,负荷使用足迹的可视化可以有效地帮助检测异常的消耗行为、故障设备和可疑的消耗指纹,这些都可能是由于能源盗窃攻击造成的。因此,这使终端用户和能源管理人员能够解决相关问题并减少能源浪费。
例如,在[170]中,作者提出了一个基于提供各种时间序列可视化方案的异常检测框架,这有助于分析和理解能耗行为。此外,它还可以可视化产生的异常分数,以指导最终用户/分析师进入重要的异常时段。同样,[171]中提出了一种交互式可视化方法,有助于捕获功耗异常。它侧重于分析和可视化使用各种流数据源收集的时空消耗足迹。该方法是针对现实世界异常检测系统的两个先决条件而开发的,这两个条件是在线监测和交互性。此外,在[172]中使用预警应用程序设计了一个交互式仪表盘,它可以自动分析能耗足迹,并根据智能仪表和传感器记录的数据,为终端用户提供及时的异常消耗可视化。在[173]中,提出了一种图形可视化工具,用于支持使用基于规则的方法检测和诊断功耗异常。
O2.压缩感知:表示一种信号处理策略,用于利用时间序列的稀疏性有效地分析和重建时间序列数据。它已广泛应用于不同的研究领域,如人脸识别、全息照相和生物信号监测。此外,压缩感知利用所有适当的特性来检测能量消耗的异常。例如,在[175]中,作者证明了在稀疏异常检测中应用压缩感知的相关性,它依赖于异常模式的数量通常小于事件总数这一事实。在同一方向上,在[176]中,可分离压缩感知与PCA相结合,以识别异常功率数据。在[177]中,使用稀疏近似范式检测智能电网中的异常事件。

2.2 异常检测水平

功耗数据的异常检测级别在制定有效解决方案中起着重要作用,因为它描述了检测和处理功率异常的分辨率级别。相应地,可以生成量身定制的建议,以解决相关问题并促进节能行为。
L1.聚合级别:是指使用特定建筑中主电源的数据检测异常功耗,即没有任何关于连接到电网的不同设备的单独功耗的信息。尽管这种异常检测已在各种工作中使用,但它的主要缺点是无法向最终用户提供有关哪个设备为特定异常的信息所负责。
L2.设备级别:表示使用使用单个子表收集的设备功耗数据执行异常检测的情况。这种异常检测被广泛采用,因为它支持对每个电气设备运行期间发生的异常进行细粒度跟踪。
时空层面:最近,从不同设备和来源收集连续时空功耗模式受到了广泛关注。这为及时了解消耗指纹的时空背景提供了新的机会。总体而言,由于正常和异常观测之间的界限不明显,因此使用常规数据收集方法检测异常消耗行为面临着相当大的挑战。因此,应对这些挑战的一个直截了当的解决方案是在其多方面和时空背景下解释消耗异常。具体来说,检测与一天中特定时间相关的异常消耗,或者哪些严重的日子会出现异常消耗,以及如何在时间戳(工作日、周末、节假日等)中识别这些异常消耗,对于向最终用户提供个性化反馈以减少能源浪费是很有价值的。

2.3 应用

建筑能耗异常检测的应用不再局限于能源效率,而是在各种新的应用环境中进行。明确地说,它们可以用于检测(i)异常消耗行为,(ii)故障家电,(iii)占用信息,(iv)非技术性损失,以及(v)居家老人监测。此外,同一建筑物内的同一异常检测系统可用于多种应用,而无需安装其他系统(例如,检测占用或非技术损失)。因此,这可以有效地降低硬件实施成本,降低已安装系统的复杂性。
A1.检测最终用户的异常行为:这是异常检测的主要应用,因为最终目标是减少能源浪费,促进可持续和能效行为。在这种情况下,检测终端用户的异常消耗行为可以更好、更准确地评估用电量,这可以转化为为他们提供有用的个性化建议。
A2.故障电器检测:在室内环境中使用各种电器,使人们的生活更加方便。然而,这些电器可能会以不同的方式出现故障或效率低下,从而导致若干问题,例如导致大量能源浪费和引发电气火灾的事件。为此,检测故障设备并向最终用户提供定制的更换建议,对于降低运营成本和促进建筑节能具有重要意义。
A3.占用检测:检测建筑物或其某一部分是否被最终用户占用,对于完成一组楼宇自动化任务至关重要。尽管检测室内占用率的实际工具通常需要安装专门的传感器,包括被动红外传感器(PIR)、磁铁驱动的簧片开关或摄像头,但其安装成本非常高,可能会增加维护的人工费用。因此,克服高成本陷阱的一个解决方案是探索安装在全球大多数房屋中用于检测居住模式的电气子表的适用性。例如,[190]中的作者调查了设备特定和聚合负载使用足迹,以检测居民的占用率。
A4.非技术损失检测:主要是指(i)检测无意中的子表故障和试图绕过子表的窃电攻击;(ii)制动和/或停车副仪表;(iii)识别故障分表记录;以及(iv)捕获具有非法连接的设备。能源消耗的非技术损失对全球大多数经济体产生了负面影响。例如,在欧洲,由于非技术性损失,每年可能损失10%以上的生产能源,而由于盗窃能源袭击,每年损失数十亿美元。为此,检测非技术损失和窃电已被引入信息技术相关挑战,这需要基于人工智能、数据挖掘和预测的新方法。此外,据报道,将行为消耗异常、欺诈和非故意消耗偏差分开是当前的研究趋势,以便向终端用户和能源供应商提供准确的反馈。
A5.居家老年人监测:现代社会在居家环境中监测老年人方面面临重大问题。这个问题可能会产生相当大的社会和经济影响。然而,克服这一问题的一个解决方案是:(i)实时监控老年人的家电消耗;(ii)识别由于某些关键情况(如跌倒)可能发生的异常消耗行为;以及(iii)预测某些设备的错误操作,这可能导致危险情况(例如洪水或气体泄漏)。

2.4 计算平台

如前所述,大多数异常检测方法都是基于机器学习技术的使用。然而,尽管这些方法的使用有助于异常检测技术的发展,但它也带来了与计算资源、数据处理速度和可扩展性相关的严重挑战。在这方面,描述和讨论用于实施异常检测系统的可用解决方案对于理解当前的挑战至关重要。

  • P1.边缘计算平台:是指分布式计算模型,允许将计算资源和信息存储能力放在靠近终端用户应用程序的地方,在那里可以直接使用,例如在能耗应用程序中,这可以在智能传感器平台或智能插拔设备上完成,如(EM)中的情况。具体而言,目前正在开发一种智能插头,用于集成不同的传感器来收集消耗和上下文数据,以及微控制器来预处理数据,将主要消耗信号分离为设备特定的足迹,并检测异常行为。这有助于提高输出、加速数据处理和节省带宽。
  • P2.雾计算平台:代表分散的计算基础设施,数据预处理、计算、存储和分析在数据采集设备和云之间的层中进行。在这种情况下,异常检测解决方案的计算能力在数据记录设备和云端附近进行,云端产生和处理数据。
  • P3.云计算平台:关注使用远程服务器确保计算和存储资源的情况,在这种情况下,部署异常检测解决方案的最终用户需要通过互联网链接将其连接起来,以便能够执行异常检测算法。换言之,用于实现这些算法的平台成为运行异常检测应用程序和可视化服务器所持数据的接入点。云架构以其灵活性来描述,这使得提供商能够根据最终用户的需求不断调整存储能力和计算能力。
  • P4.混合计算平台:指由不同层(包括云、雾和边缘)保证计算能力的情况,如[204]所述。在这种情况下,基于异常检测解决方案的计算要求和现有计算资源,当算法需要低计算成本时,可以在边缘和/或雾上执行算法,否则,当需要高计算成本时可以在云中执行算法。

表1比较了上述几种建筑能耗异常检测框架。将它们与各种参数进行比较,例如(i)应用场景,(ii)类别,(iii)实现的技术,(iv)学习过程,(v)用于(或需要)实现异常检测算法的计算平台,(vi)隐私保护,以及(vii)采样率。这有助于轻松理解每个框架的属性以及现有解决方案之间的差异。

2.5 使用AI的异常检测示例

为了解释文献中如何考虑能源消耗的异常,以及如何使用人工智能检测异常使用,我们在本节中介绍了三种不同的异常检测场景,使用(i)基于人工智能的预测,(ii)能量微矩和占用数据的人工智能分类,以及(iii)能量数据的一类分类。值得注意的是,随着人工智能的使用,使用其他类型的数据(如占用模式和环境条件)检测更高级类型的异常成为可能。
场景一.使用基于人工智能的预测进行异常检测
在[207]中,提供了一个功耗数据集来验证异常检测算法。用于预测未来能源消耗的人工智能工具与用于检测异常能源消耗的基于规则的算法相结合。该方法依赖于使用RNN模型预测下一时间戳的能源消耗,然后计算实际消耗和预测消耗之间的差异,以测量“惊喜”水平。在这方面,如果检测到明显的间隙,则(i)发生了异常的能源使用行为,或(ii)模型出现了错误。接下来,使用基于规则的算法,并参考一组统计标准,通过过滤预测系统识别的异常情况,继续进行调查。基于规则的算法有助于检测关于(i)小时、(ii)室外温度和(iii)日类型(工作日与节假日)的每个时间戳的功耗百分比。图4显示了分析时间序列能耗时检测到的异常示例。
场景二.使用AI和微矩分析进行异常检测
在(EM)框架中,通过使用微矩分析分析能耗足迹和占用模式来检测异常能耗。然后,部署DNN模型,自动将每个消耗观测值分类为正常或异常。具体来说,能源消耗样本分为五类;其中三个被命名为“第0类:良好的使用”、“第一类:打开设备”和“第二二类:关闭一个设备”,它们代表正常使用;另外两类被称为“第三类:过度消耗”和“第四类:外出消耗”,这两类是指不正常的使用。图5显示了电视情况下DRED数据集中收集的时间序列能量轨迹的示例,以及使用DNN模型和微矩分析识别的相应正常和异常能量模式。由于在异常检测阶段考虑了占用数据,因此可以检测到新的消耗异常,该异常对应于电视打开时终端用户的缺席(对于其他特定设备,如空调、加热器、风扇等,也可以考虑此异常),使用仅基于分析能量指纹的常规异常检测技术是不可能做到这一点的。
场景三.使用一类分类的异常检测
另一个重要的异常检测解决方案是基于传统的一类分类,它已在其他应用中广泛使用。图6显示了使用一类自动编码器对DRED数据集应用的能耗异常检测的示例。很明显,该方案基于对新表示空间中能量消耗水平的分析,将能量观测分为两大类,其中功率和时间已标准化。

3. 关键分析与讨论

3.1 讨论

建筑能耗异常检测对于开发强大的能源管理系统、识别能源盗窃攻击、效率低下和疏忽至关重要。然而,在大多数情况下,很难将消耗异常与因季节变化和个人环境变化(如节假日、家庭聚会、新环境的意外变化等)导致的正常使用偏差区分开来。此外,现有异常检测方法的局限性之一与以下事实有关:不同的未识别上下文数据,包括季节变化,可能会影响最终用户的用电量,当使用现有的基于时间序列的异常检测技术时,这些数据会以异常的方式影响最终用户用电量。此外,一组重要的调查结果总结如下:

  • 基于人工智能的解决方案主要侧重于开发实时或近实时(例如,每小时采样率或更低),尽管它们也可以提供长时间(例如,天、周、月和年)的洞察力分析。这是由于人工智能分析大数据的能力,特别是在考虑高频采样率的情况下,同时也得益于物联网设备、智能仪表和智能传感器,它们极大地帮助收集准确的数据。另一方面,这代表了基于人工智能的实际异常检测技术与二十年或三十年前使用的技术之间的主要区别,在这些技术中,无法实时或接近实时地处理数据。此外,几乎所有综述的框架都侧重于分析千瓦时或瓦时的电力消耗数据。这取决于异常检测是在聚合级别(使用千瓦时)还是设备级别(使用瓦时)进行的。
  • 大多数现有的能量消耗异常检测方法仅试图标记出明显高于或低于通常消耗足迹的电量样本,其他应用中也是如此,例如银行卡欺诈检测、网络入侵检测和心电图异常检测。不幸的是,这不是检测异常功耗的正确情况,因为能耗异常的定义可能会有很大不同,还有其他类型的异常,并且它们的检测需要其他信息来源,例如占用模式和设备操作数据。
  • 通过使用人工智能,可以开发实时或接近实时的能耗异常检测系统,该系统可以及时识别异常使用情况,并通过发送警告和通知向最终用户发出警报。因此,可以部署推荐系统,通过向终端用户提供个性化和上下文相关的建议,帮助他们更好地决策,减少能源浪费。例如,EM项目结合了异常检测和推荐系统,以帮助终端用户使用实时或近实时策略减少能源浪费。
  • 根据最近的工作,使用聚合水平消耗数据并不是检测能耗异常的最佳方法,因为它们是一般性的,无法提供关于每个异常原因的精确信息。因此,使用子仪表或NILM系统生成的设备级数据更合适,因为这有助于检测每个设备的异常。
  • 在某些情况下,给定功耗行为的整体可能被视为异常,而不仅仅是一些特定的观察结果,这使得难以检测准确的异常部分。因此,这需要将当前消耗足迹与过去和理想消耗周期进行比较,而不仅仅是使用离群值检测算法,它可以检测样本级别的异常。
  • 就现有方法的有效性而言,尽管无监督异常检测很容易实施,因为它不需要标记数据集来学习异常,但它存在严重缺陷,因为它只能检测一种异常,这与过度消耗有关。集成方法和基于特征提取的技术也是如此。相比之下,监督方法不像无监督方法那样受欢迎,因为它们需要使用标记数据集来了解异常情况。然而,使用与此类别相关的方法可以检测其他类型的异常。这是因为人类专家可以利用从不同来源收集的训练数据,如消耗足迹、占用模式、室内条件和设备操作参数,对其进行先验定义。
  • 就计算资源而言,大多数基于深度学习的异常检测框架需要高性能计算能力来执行学习过程。因此,他们中的大多数使用云计算来集成和管理大型数据集。而对于传统的基于机器学习的异常检测,边缘和雾计算已经成功地应用于各种框架和应用中。
  • 隐私保护:开发异常检测系统以促进建筑节能,在社会各阶层都至关重要。这可以通过使用本地和时间细粒度的功耗指纹、占用模式和环境条件记录来执行,以识别异常和不必要的功耗。不幸的是,使用这种细粒度记录能够根据最终用户的能源使用足迹披露其存在的信息。在这种情况下,我们注意到,在大多数异常检测框架中,隐私保护都被忽略或未被报告,只有极少数人试图触及这个问题。

3.2 基于人工智能的异常检测技术的相关性

基于人工智能的异常检测的相关性和鲁棒性不仅取决于检测异常能源使用的准确性,还取决于可以检测到的消耗异常的类型和数量。在这方面,很明显,大多数无监督异常检测技术(即聚类、一类分类和降维)只能检测到一种类型的能源使用异常,这与过度能源消耗相对应。这是因为它们基于识别罕见的消耗观察值或离群值,这与大多数消耗足迹有很大不同,从而引起怀疑。此外,他们只分析能源消耗数据,而没有考虑影响能源使用的其他相关因素,如占用率、环境条件和用户偏好。另一方面,监督异常检测具有更多优势,因为它们可以通过考虑终端用户的存在/不存在、环境条件、室外天气数据和用户对能源使用的偏好的影响来检测不同类型的能源消耗异常。通过使用基于规则的算法来定义异常消耗和标记多模式数据集,这是可能的。在这种情况下,基于深度学习模型的深度异常检测技术在检测异常使用的准确性以及处理和分析多模态数据的能力方面表现出良好的性能,如[19]所述。表2总结了相关的基于人工智能的异常检测技术,包括其优缺点。

3.3 挑战与局限

异常检测系统在能源消耗方面存在一些常见的和特定领域的挑战和限制,这些挑战和限制阻碍了开发高效的解决方案,使其实施成本高昂,并限制了其广泛应用。它们可以概括为以下几点:

  • 缺乏标记数据集:在开发和验证异常检测方案的严重缺陷中,缺少注释数据集,为正常和异常消耗提供标签。大多数监督算法都是在少量数据上进行验证的,这些数据不能被视为综合数据集,能源研究界也无法访问。具体地说,标记异常消耗事件及其类型的存储库几乎不存在,而且创建它既困难又昂贵。因此,为不同类型的建筑创建反映真实消耗行为的各种数据集,将有助于能源研究界有效测试和改进不同应用场景中消耗异常的检测。
  • 不平衡数据集:指数据类中异常的分布,即异常数据通常在整个数据集中可能占少数。事实上,异常数据在现实中非常罕见,与主要正常数据一起形成了一个极不平衡的集合。大多数异常检测数据集的类不平衡特性导致算法性能次优。因此,为了解决这个问题,需要一些预处理技术,其中包括(i)使用重采样程序对少数类进行过采样或对多数类进行欠采样,以及(ii)生成合成功耗数据。此外,在其他主题中,异常类通常表示为次要类,但在能量消耗方面,情况并不总是如此,尤其是在观察到高能量浪费行为时。在这方面,应用无监督异常检测方法的效率较低。
  • 异常的定义:异常的传统定义表示异常观测是异常值或偏差。然而,这一定义不足以定义能源消耗的异常,因为可能存在其他形式的异常,例如,终端用户在室外时保持设备打开(即空调、风扇、电视等),空调/供暖系统打开时保持门窗打开,导致高耗电量等。因此,为了有效地检测能耗异常,不仅需要分析能耗数据,还需要分析其他信息源,包括占用模式、环境条件、室外天气足迹和设备运行参数。
  • 稀疏标签:一方面,在许多应用程序中,表示实例是正常还是异常的标签非常耗时,而且获取成本高昂。这对于时间序列数据尤其典型,其中采样频率可能达到1000 Hz,或者时间可能长达数十年,从而生成大量数据点。另一方面,在现实中,异常数据往往是不可复制的,也不能完全得出结论。
  • 尽管检测设备级别异常比检测聚合级别异常更重要,但仍没有得到必要的关注。实际上,电器电子元件的故障不仅会增加能源消耗,而且在某些情况下,其他类型的故障可能会导致新形式的致命故障电器,例如,故障设备可能会导致短路,从而引发火灾。
  • 概念漂移:这种现象通常发生在时间序列数据中,由于潜在条件的变化,机器学习模型的共同独立同分布(i.i.d)假设常常被违反。由于功耗数据中的观察值和关系会随着时间的推移而演变,因此应近实时地对其进行分析,否则用于分析此类数据的系统会随着时间推移而迅速过时。在机器学习和数据挖掘中,这种现象被称为概念漂移。
  • 缺乏再现经验结果的平台:能源消耗异常检测的主要问题之一是缺乏再现现有解决方案结果的平台。这可能会阻碍现有算法之间的性能比较,并使其难以理解最先进的技术。
  • 大多数框架通过将正常或异常功率观测分为两个主要类别(正常和异常)来区分正常或异常的功率观测,无需进一步详细说明。然而,在现实世界中,存在不同种类的异常消耗,例如,由于过度消耗电器而导致的异常与由于冰箱门打开或由于终端用户缺席而导致的不同,如[54]所示。在这方面,如果不向最终用户提供异常的性质及其来源,就很难触发行为变化并促进节能。

3.4 市场驱动因素与障碍

本文回顾的框架表明,对于能源领域的大量服务和应用,异常检测主题是一种很有前景的策略。另一方面,值得注意的是,总体而言,建筑能源监测市场包含数十亿美元的全球机遇。这一市场似乎正在以强劲的速度增长,其中异常检测占据了重要地位。建筑节能系统的决策依赖于数据,然而,随着子仪表和智能传感器的广泛使用,产生的数据非常庞大,常常会导致相关信息的丢失或误解。实际参与提供异常检测和能源监测解决方案的各种活跃能源公司和公用事业公司,明显说明了这项技术对提高能源效率的重要性。表3总结了不同公司开发的一套商业能源异常检测和能源管理解决方案,用于不同类型的建筑。具体来说,它描述了每个解决方案、公司名称、能源监测和异常检测频率(实时或近实时)、国家和目标建筑环境。
尽管上述解决方案可用,但在能源行业广泛部署异常检测技术之前,仍需要解决不同的问题。首先,异常检测解决方案应该证明,它们可以提供所考虑的应用场景所需的可伸缩性、速度和隐私保护。对于实现这些目标至关重要的分布式一致性算法的研究工作仍在进行中,然而,如果不进行重大权衡,就无法实现结合所有期望特征的解决方案。尽管可以使用现有的电力基础设施安装异常检测系统,但这些系统的另一个关键问题是,其实施成本很高。大多数解决方案都基于最新的机器学习方法,这些方法需要高性能计算资源,例如使用云平台。因此,这会减缓这些解决方案的商业化进程。此外,在大多数能耗异常检测解决方案中,对因无意不当的系统开发或盗窃攻击而导致的安全攻击的抵抗能力没有得到认真解决。

4. 当前趋势和新观点

在审查了异常检测框架、讨论了它们的局限性和缺点并描述了重要的发现之后,最重要的是描述这一利基的当前趋势并得出可能有针对性的新观点。这有助于异常检测社区了解当前的挑战和未来的机会,以改进建筑物能耗的异常检测技术。图7总结了该框架中确定的当前趋势和新观点。

4.1 当前趋势

能源消耗中的异常检测提出了各种挑战,这些挑战主要针对特定领域。例如,正常消耗与异常消耗之间没有一个唯一的定义,并且存在着不明确的界限,将正常行为与异常行为分开。此外,还缺乏可用于评估异常检测算法性能的基准数据和统一指标。此外,其他数据源可能导致触发非常规能源消耗异常,例如:终端用户的存在/不存在,打开某些特定设备时打开窗户/门。为此,本节讨论了一组当前趋势,应考虑这些趋势来增强节能应用的异常检测技术。

4.1.1 考虑其他数据源

在用于能耗的传统异常检测方案中,通常只使用从主电路或单个设备收集的功耗数据来检测异常,而不注意可能影响能耗的其他因素。然而,为了进行准确的异常检测,应收集并存储影响功耗的所有数据以及能耗模式。以下,应参考所有这些数据建立异常检测算法,可总结如下:
D1.设备参数:每个设备都有特定的参数设置,这些设置对其正常工作起到了作用,例如最小待机消耗、最大待机消耗和最大运行时间。这些参数对于定义设备的正常和异常消耗以及进一步检测设备是否工作正常或有故障都很重要。
D2.占用模式:终端用户的存在或不存在会严重影响能源使用,并导致一些异常的消耗行为,这些行为与过度使用电器没有直接关系。例如,当终端用户不在时打开空调、电视、风扇或桌面应被视为异常消耗行为。为此,记录入住率数据可以检测非常规的异常消耗行为。
D3.环境条件:能源消耗可能会受到室内条件的极大影响,例如温度、湿度和亮度,因为一些设备的运行主要取决于这些因素(例如空调、供暖系统、风扇、灯具等)。因此,收集此类数据有助于捕获异常能耗。

4.1.2 非侵入性异常检测

从NILM作为收集逐项计费的子分类的良好替代品的优势出发,它用于检测设备特定异常非常受欢迎。具体而言,使用NILM将无需为每个设备安装单独的子表,从而有助于显著降低异常检测解决方案的成本。使用NILM检测异常消耗导致开发了一种新型非侵入式异常检测系统。在[20,233]中,作者试图调查使用NILM检测到的设备特定消耗指纹是否可以直接用于识别异常消耗行为,以及这会在多大程度上影响识别的准确性。因此,尽管NILM识别异常消耗的性能还不如使用子分级反馈准确,但它的性能可以进一步提高,以便能够可靠地识别错误行为。向前推进,应朝着这一方向作出更多努力,开发具有足够保真度的非侵入性异常检测,而无需安装额外的分表。

4.1.3 标记的数据集集合

如前所述,缺少注释数据集阻碍了电力异常检测解决方案的发展。为此,应更加努力收集和注释不同建筑环境(家庭、工作场所、公共建筑和工业建筑)的电力消耗数据集,并进一步公开共享。这可以帮助研究人员加快测试和验证算法的过程。在这种情况下,[19]中的作者发布了两个用于异常检测的新数据集。前者称为卡塔尔大学数据集(QUD),收集于一个能源实验室,提供四类家电的消耗量以及三个月的入住模式。后者称为功耗模拟数据集(PCSiD),生成六个设备的消耗指纹和两年的占用数据。这两个数据集都提供了功耗足迹及其相关标签,其中总体数据被分为五个消耗类。其中三类代表正常消耗类别,分别称为“良好消耗”、“打开设备”和“关闭设备”,而其余两类则指异常消耗类别,定义为“过度消耗”和“外出消耗”。图8恢复了微力矩等级的假设和标记过程,该过程应用于QUD和PCSiD。

4.1.4 衡量绩效的统一指标

除了已经介绍的内容和基于对最新技术的分析,值得一提的是,没有统一的指标和方案来评估异常检测算法的性能。相比之下,不同异常检测方法之间的公平比较应使用标准度量集合,并应在相同条件下进行,例如使用相同的数据集,包括以相同采样率采集的器具指纹。

4.2 新观点

最近,政府、终端用户、公用事业公司和能源供应商对异常检测技术非常感兴趣,认为它是一种可持续的解决方案,有助于实现能效目标。在本节中,我们将概述能耗异常检测的新视角。

4.2.1 可解释的深度异常检测

基于深度学习的异常检测解决方案在当前框架中受到越来越多的关注。然而,尽管深度学习模型具有良好的性能,但其黑盒特性在实际实施中仍存在不足。特别的是,在能耗异常检测方案中,使用深度学习对检测到的异常进行解释至关重要。为此,开发基于深度学习的异常检测技术,解释功耗观察/事件异常的原因,支持终端用户/专家将调查重点放在非常关键的异常上,并提高他们对所采用解决方案的信任度。
例如,一个重要的方向可能是通过开发新一代可解释的深层单类学习模型,以有效地检测不同类型的能耗异常。具体而言,这类模型有助于(i)学习映射,以将正常消耗观察集中在特征空间中,(ii)将异常模式推离,以及(iii)为检测到的异常提供适当的解释,或者更确切地说,是一种人类可读的处方,提供关于导致异常的原因的有用信息。此外,这使得能够生成量身定制的建议,支持终端用户减少浪费的能源,能源供应商通过使用可解释的推荐系统(RS)来检测非技术性损失。

4.2.2 边缘深度异常检测

深度学习是实现强大异常检测解决方案的一个很有前途的解决方案,然而,几年前,人们一直认为深度学习只能在高端计算平台上实现,而训练/推理是在边缘进行的,由边缘服务器、网关或数据中心执行。这在当时是一个合理的假设,因为趋势是通过在云和边缘服务之间分配计算资源。然而,由于学术和工业合作伙伴最近的研发成就,目前这种情况已经完全改变。因此,替代方案考虑使用包括集成机器学习加速器的新型微控制器。这将为边缘设备带来机器学习,特别是深度学习。后者不仅可以执行机器学习算法,但它们这样做的同时耗电量非常低,并且需要在需要时连接到云。总的来说,这种带有嵌入式机器学习加速器的微控制器为能量子表和收集环境条件(即温度、湿度和亮度)的传感器提供了良好的计算能力,这些传感器收集数据以支持各种物联网应用。
另一方面,边缘被广泛认为是任何物联网网络中最远的点,可以是高级网关(或边缘服务器)。此外,它在终端用户附近的分表/传感器处终止。因此,将更多的分析能力放在终端用户附近已变得合理,因为微控制器可能非常方便。显然,这允许在小型和资源受限的低功耗设备上进行推理,并最终进行训练,而不是在大型计算平台(如台式机、工作站等)或云上进行。值得注意的是,要实现深度学习模型,需要缩小其规模,以适应此类设备的适度计算、存储和带宽资源,同时保持基本功能和准确性。图9显示了嵌入在基于微控制器的智能插头上的异常检测解决方案的示例,该智能插头正在(EM)项目中开发。

4.2.3 深度增强学习

强化学习是人工智能的一个很有前途的话题,最近受到了极大的关注。其概念涉及在开发算法之前理解人类决策程序,使代理能够使用实验-错误和接收奖励功耗信号的反馈形式来确定适当的异常行为。在这方面,深度强化学习(DRL)被提出作为深度学习和强化学习的合并,以检测更复杂的消耗异常。检测此类异常包括处理高维消耗模式和环境条件、代理观察的不确定性以及稀疏的奖励功耗特征。DRL技术最近被提出用于解决各种各样的问题,包括检测异常视频监控、交通管理和异常检测、通信和联网以及能耗预测。
总的来说,DRL显示出有效解决能耗异常检测问题的良好机会,因为后者被视为决策任务。接下来,代理被设计为通过与消耗和环境数据的持续交互以及对检测到的异常情况的奖励来学习这些数据,也就是说,这个过程类似于人类通过自身经验进行的自然学习。

4.2.4 多模态异常可视化

如前所述,解释异常和正常功耗行为的能力至关重要,因为异常检测问题中的基本内在挑战主要与(i)异常和正常能耗观察之间没有明显的界限,以及(ii)获取注释功耗数据集以训练和验证开发的解决方案的复杂性有关。为此,人类专家的知识和经验被高度重视,以判断消耗情景。因此,对用电量模式和结果分析进行主观、全面和交互式可视化,有助于支持解释并促进最佳决策。在这种情况下,最近人们非常关注使用创新的可视化工具和可视化分析方法来检测其他研究领域中的异常数据,例如社交媒体上的谣言传播和用户行为。
在这方面,使用可视化和交互性来检测异常耗电行为并支持终端用户的可解释性和交互力是一个很有前景的研究方向,特别是在理解异常耗电足迹的意义并解释异常发生的原因方面。例如,在(EM)框架中设计了新的可视化图,以使用散点图描述异常消耗模式,其中跟踪了两种异常情况,即“过度消耗”和“没有最终用户的消耗”,以及白天的正常数据。
此外,(EM)中开发的另一个值得注意的可视化绘图是堆叠条,它可以在设备级别为最终用户提供消耗分析和异常检测功能。它允许选择设备并将同一设备的各种型号堆叠在一起(例如,不同品牌的电视)。可视化多级功耗有助于终端用户有效检测异常和故障设备,从而使他们能够更好地决策以减少能源浪费。图10描述了我们对基于多模态可视化的能耗异常检测的看法,其中可视化反馈(在聚合级别或设备级别)可用于提高异常检测的准确性。

4.2.5 可复现研究平台

尽管在开发用于能源消耗的异常检测方法方面取得了进展,但主要有三个方面影响了再现性,从而对异常检测算法进行了公平和实验性的比较:(i)由于大多数框架通常是在一个独特的数据集上进行评估,因此很难评估一般性异常检测技术,(ii)由于缺乏可用的开源异常检测数据集,因此缺乏在相同条件下比较现有解决方案的框架;(iii)针对所考虑的场景,在最先进的技术中使用了不同的标准化评估标准。
为了克服这个问题,迫切需要发布一个开源异常检测工具包,其中包括具有挑战性的能耗数据集和现有的异常检测算法。这将允许以可重复的方式公平、轻松地比较异常检测算法。此外,这将为未来的异常检测比赛奠定基础。

4.2.6 隐私保护机器学习

由于保护最终用户隐私的严格法律和道德要求,由于缺乏用于训练和验证算法的开放存取异常检测数据集,机器学习方法在能源消耗异常检测中的广泛使用实际上受到了限制。为了在使用功耗数据集的同时保护最终用户隐私,同时促进科学研究,迫切需要实施新的方法来实现联邦、安全和隐私保护的机器学习。在这种情况下,删除私有信息(匿名化)并用人工生成的输入替换易受攻击的输入,同时允许基于查找表的重新分配(化名)是可以针对的解决方案。此外,使用联邦机器学习有助于在各种分散的边缘设备/服务器上训练算法,这些设备/服务器持有本地功耗模式,而不共享它们,对于能耗异常检测似乎很有希望。

4.2.7 可解释的RS与新冠肺炎大流行

在新冠肺炎大流行期间,由于行动受到限制,建筑物的功耗已完全改变。这广泛触发了远程工作和电子学习,因此将活动和能源使用转移给了家庭居民。因此,需要智能解决方案来根据实际情况和可能随时发生的其他变化来检测能耗异常是当前的挑战。为此,利用遥感技术支持人类决策最近受到了越来越多的关注。然而,为了增加最终用户的信任,提高对生成的建议的接受程度,这些系统应该提供解释。
在这种情况下,开发可根据最终用户偏好、习惯和当前环境定制的可解释且有说服力的能源消耗建议机制,将迅速减少能源浪费,促进节能。具体来说,这些解释可以证明推荐每项能效法案的理由是合理的。另一方面,基于事实的解释的说服力可以通过使用说服力和激励因素来提高,例如强调生态影响和经济节约效益。图11显示了(EM)框架中提出的可解释能源RS的一般流程图。此外,值得注意的是,可解释的RS非常适合于意外的能源消耗情况(例如新冠肺炎大流行),因为除了向最终用户提供每个建议行动的更多细节(使用上下文数据)以提高其接受度外,还可以实时生成建议。

5. 结论

本文对建筑能耗异常检测方法进行了系统的、技术性的综述。本文提出了一种分类法,它根据不同的方面对这些方法进行分类,例如人工智能模型、应用场景、检测级别和计算平台。总之,异常检测策略可以通过减少浪费的消耗和能源成本,明显造福节能系统、能源供应商、最终用户和政府。具体而言,它们提供有关异常消耗行为、异常设备、非技术损失和窃电网络攻击的洞察信息,但最重要的是,异常检测系统为促进节能提供了智能和强大的解决方案。它们在能源监测市场上也发挥着重要作用。
我们已经表明,能源消耗方面的大多数异常检测解决方案仍处于起步阶段。为了促进其广泛应用和成熟,应克服一系列挑战和限制,其中包括缺乏注释数据集、缺乏再现性平台以及缺乏评估性能开发解决方案的标准度量。另一方面,能源消耗受其他因素的影响,例如入住率(终端用户的存在/不存在)、环境条件、室外温度和最终用户的偏好。因此,最重要的是要考虑这些数据,以开发功能强大、可靠的异常检测模型,该模型可以检测更高级的异常能源使用。总而言之,在不久的将来,应作出重大研究努力,以应对上述问题,提高异常检测系统的质量。
此外,在未来的方向上仍在进行进一步的研究,这可能允许在可扩展性、分散性、低功耗、易于实施和隐私保护方面开发电力异常检测系统。最后,我们认为应开展更多的研究贡献、项目和与行业合作伙伴的合作,以帮助异常检测技术发挥其全部潜力,证明其商业可行性,并促进其在住宅建筑中的主流应用。

你可能感兴趣的:(综述文章,异常检测)