Abstract: Calculate the 95% probability values of mass data is a difficult problem for the Power Quality Monitoring Platform, it’s difficult to meet user’s need to use the traditional algorithm for takes a long time to calculate, and long DB IO unit time. According to the characteristics of the 95 probability high value of the mass data of the power quality monitoring platform, This paper proposes innovative top5 maximum data storage and experience difference solution. Statistical week, month report 95 probability values by store temporary weekly / monthly report of the top-5 large values. Through the experience of law difference of quarterly and annual reports of 95% probability values. In the practical application of the provincial level monitoring platform, the performance of the proposed scheme is greatly improved use the proposed scheme, compared with the original 95% probability values scheme. it’s not only apply to the 95% probability values computation, but also apply to the 90% or 99% probability values computation for the power quality online monitoring platform.
Keywords: Power Quality Monitoring; 95% Probability Values; top-5 large values
摘要:海量数据的95概率大值计算是电能质量监测平台的一大难点,传统的计算算法耗费时间长,计算过程中数据库IO单位等待时间长等问题难以满足用户需求。针对电能质量监测平台海量数据95概率大值的计算特点,本文创新性提出了的top5最大值数据暂存和经验差值解决方案,通过暂存周、月报表的top5最大值数据统计周、月报表的95概率大值,通过经验差值法统计季、年报表的95概率大值。在省一级监测平台实际应用中,本文提出的方案相比较原始95概率大值统计方案,性能上有非常大的提高,大大缩短了计算过程中的用户等待时间以及数据库IO等待时间。同时,本文提供的方案不仅适用于电能质量监测平台中的95 概率大值的计算,对于 90 概率大值、99 概率大值等的计算同样适用。
关键词:电能质量监测; 95概率大值; top5最大值数据;
配电网是国民经济和社会发展的重要公共基础设施。近年来,我国配电网建设投入不断加大,配电网发展取得显著成效,但用电水平相对国际先进水平仍有差距,城乡区域发展不平衡,供电质量有待改善。建设城乡统筹、安全可靠、经济高效、技术先进、环境友好的配电网络设施和服务体系一举多得,既能够保障民生、拉动投资,又能够带动制造业水平提升,为适应能源互联、推动“互联网+”发展提供有力支撑,对于稳增长、促改革、调结构、惠民生具有重要意义[1]。随着农村人民生活水平的提高,家电下乡,新农村、城镇化建设的推进,提高电力用户电能质量是当前智能电网研究的主要目标之一[2]。在国家电网2015工作会议与十三五配网规划中明确指出在“十三五”期间要加强配电网建设与改造,建立常态监测与治理机制,15至16年解决存量问题,17年开始实现动态监管。国际上,电能质量在80年代就已经引起西方很多发达国家的重视,发展至今形成了较为完善的电能质量监测标准、治理体系[3,4]。
2. 电能质量监测平台介绍
电能质量监测平台[5]主要含有数据通信子系统、数据采集子系统、数据解析子系统、数据处理子系统、数据存储子系统和数据展示子系统[6]。数据通信子系统维护各类通道下的监测装置在线链接;数据采集子系统负责定时采集或按需采集监测装置数据,同时,通过其他系统如调度PMS、用电信息采集系统等传输过来的PQDIF文件,也由采集子系统维护;数据解析子系统将采集模块中的PQDIF 文件或其他格式的文件进行解析,并将解析结果通过消息队列方式发送到数据存储子系统;数据处理子系统定时轮询数据库中的采集稳态数据,进行报表统计、事件判断等任务,并在此基础上进行区域事件联想分析、谐波干扰源识别、电网故障预警及电能质量治理决策等高级应用;数据存储子系统以ORACLE关系数据库作为载体存储来自数据解析子系统和数据处理子系统的数据;数据展示子系统以BS架构的WEB页面形式,将电能质量采集及分析统计数据以报表、曲线、动态图形等形式展示给用户。电能质量监测平台的总体物理架构如图1所示:
图1.电能质量监测平台物理架构
该电能质量监测平台目前接入482套电能质量装置,监测点达到1322个,将来将扩充到2000多个监测点。目前每天采集的监测点数据达到7~10GB,数据采集、解析、存储的压力非常大,属于海量数据处理的范畴,数据处理的优化设计对整个系统的意义重大,是目前及今后一段时间研究的重点。
2.1 电能质量监测平台数据存储
电能质量监测平台中的采集数据项非常多,如果谐波次数以50次计算,采集数据项达到2200个。为了平衡单张数据库表中的记录数和字段数,在设计数据库子系统[7]时,我们按照有效值、三序分量及不平衡度、谐波统计数据、基波数据、谐波数据、间谐波数据、闪变数据等不同数据类型进行区分,分别存放在不同的数据库表中。数据表的关系模型构建为PQDATA_X(OID,MPIDidx,DATATIMEidx,DATA1,DATA2…DATAN),其中,X表示不同类型的数据表名称,OID为自增序列,作为唯一主键,MPID为监测点的ID号,DATATIME为监测点稳态数据采集时间点,组成唯一索引,DATA1,DATA2,…DATAN表示不同的采集数据项集合。以有效值数据为例,数据库表PQDATA_EFCTV存储的数据项为频率HZ、三相电压有效值(PHVA,PHVB,PHVC)、三相线电压有效值(PHVAB,PHVBC,PHVCA)、三相电流有效值(AA,AB,AC)、频率偏差HZDEV、三相电压偏差(PHVDEVA,PHVDEVB,PHVDEVC)、三相有功功率(WA,WB,WC)、三相无功功率(VARA,VARB,VARC)、三相视在功率(VAA,VAB,VAC)、三相功率因数(PFA,PFB,PFC)等的最大、最小、平均以及CP95值,其中,谐波数据按照数据项分表存储,每张谐波数据含50次谐波的最大、最小、平均以及CP95值。每张存储数据库表约含有500到900个数据字段。
由于现场电能质量装置含有多个厂家的不同型号设备,每台装置具备的采集能力不同。比如有的装置具备采集三相不平衡数据、具备采集48次谐波的能力,而有的装置却不具备采集三相不平衡数据,只能采集到25次谐波数据。为了灵活配置每台装置的具备的采集、统计计算数据项,我们构建关系模型DATAITEM_DETAIL(ID,MPID,DATAITEMID,RPTTYPE,DATASRC),其中ID为自增序列ID,作为唯一主键,MPID为监测点ID,DATAITEMID为数据项编码,RPTTYPE表示统计报表类型(日、周、月、季、年报表),DATASRC表示此数据项用于采集还是统计计算。通过为每台装置配置不同的采集、统计数据项,可在一定程度上减少不必要的采集传输以及统计计算时间。
2.2 电能质量监测平台95概率大值
后台数据处理子系统在对采集数据项进行统计分析时,需要依次统计日、周、月、季、年报表的最大、最小、平均值以及95概率大值和合格率。其中,95概率大值的统计分析原理为[8]:
式中:、为聚集函数中的取最小值算子和计数算子,表示投影运算,表示选择运算,枚举所有的采集数据项字段,表示从中取出排在第(某数据项总记录个数0.95)位置上的值,即为95概率大值。
在上面计算95概率大值的公式中,需要对一段时间内的总记录数进行排序。以现场中常见的每隔3分钟上送一个数据为例,日报表统计中需要对480个点进行排序,年报表统计中需要对约175200个点进行排序操作。
3. 存在的问题及优化方案
3.1 目前获取95概率大值存在的问题。
从2.2章节的分析可以看出,报表统计过程中,95概率大值的统计分析需要对统计时间段内每个测点的每个数据项进行一次排序操作。按照目前广东现场最大监测点2000个为基准,每个测点统计2200个数据项,日报统计数据库IO次数约为17,600,000次,这是常规关系型数据库难以承受的。
如果将原始数据读入内存后再进行报表计算,可减少数据库IO次数到几百次以内,但这样会同时存在两个问题:其一是2000个测点一个月内的原始数据即达到600G左右,一般服务器不具备这样大的内存;其二按照现场理论每秒传输100M的带宽计算,统计一个月内的报表数据传输原始数据的时间约为102.4分钟,难以满足用户等待需求。
3.2 优化方案
为了解决上面已知的问题,我们将从如何减少IO次数和减少原始数据传输两个方面考虑优化方案。通过将原始数据传输到内存减少数据库的IO次数,而通过暂存周月TOP5最大值以及经验差值法减少原始数据传输量。通过这两种优化方案的实施,目前现场在用户许可范围内较好的完成了日、周、月、季、年报表的95概率大值统计任务。
3.2.1 暂存周月TOP5最大值
统计95概率大值需要将待统计数组按照从小到大的次序排序,取95%位置上的数据即为要求的95概率大值。这和将数组从大到小排序,取5%位置上的数据一致。因此,我们通过计算TOP5中的最小值得到95概率大值。
由于年、季、月、日和年、季、周、日报表统计的依次依赖性,首先需要计算日报,再根据日报统计数据或者原始稳态数据依次计算后续周、月、季、年报表。每次日报统计完成后,用传输到内存的日报原始数据与暂存的周TOP5最大值数据、暂存的月TOP5最大值数据进行比较,不断更新周、月的TOP5最大值数据。一周内的日报计算完成后,所存储的周TOP5最大值数据中的最小值即为周95概率大值;一月内的日报计算完成后,所存储的月TOP5最大值数据中的最小值即为月95概率大值。周95概率大值计算流程图如下:
图2.周95概率大值计算流程
在周报计算过程中,需要保存的TOP5最大值个数应该为周内原始数据没有漏点情况下的TOP5个数。以现场每隔3分钟上送一个原始数据为例,周TOP5需要保存的原始数据个数应为480*7*5%,为168点(四舍五入)。月报95概率大值的统计过程与周报类似,但每月保存的原始数据个数因月内天数的不同而不同。周、月TOP5最大值数据关系模型构建为PQ_3MTMP_DATA(OID,MPIDidx,RPTTYPEidx,RPTDATEidx,RPTDATA),其中OID为自增序列,MPID监测点ID,RPTTYPE报表类型和报表日期RPTDATE组成唯一索引,RPTDATA为二进制BLOB字段,存储测点所有数据项的TOP5最大值数据,RPTDATA字段格式为{ITEM1,TIME1,DATA1,…TIMEn,DATAn,…ITEMm,TIME1,DATA1…TIMEn,DATAn},其中ITEM为数据项编码,TIME为数据时间,DATA为存放的原始TOP5数据,数据项,数据时间,原始数据以4字节INT类型存储。
3.2.2 经验差值法
对于季、年报表的95概率大值统计,即便是保存TOP5最大值数据,也因数据量太大(100G左右)而难以实现。但通过现场经验我们发现,月95%概率大值与季、年的95概率大值差别很小。因此,在统计季、年95概率大值的时候,我们首先取已经获得的一年内月95概率大值的最小值作为限值标准,将季、年统计时间范围内原始数据与限值的差值为正的原始数据加载到内存中计算95概率大值。为减少数据库的IO次数,并控制加载数据的内存开销,每次我们加载单个数据项的所有的测点数据。
4.现场验证
在指定统计时间段内,采用95概率大值对线性负荷的运行方式随时间的变化进行统计具有一定的抗干扰能力[9], 本文以广东现场电能质量监测平台为研究基础,该检测平台将投入2000多个监测点,分别对变电站母线、线路进行监测。我们将原有解决方案与优化后的解决方案进行对比,结果表明在同样的条件下的报表统计任务,优化后的计算方案耗时仅为原有计算方案耗时的1/4。1322个测点的报表统计时间由63分钟缩短到15分钟以内。同时,数据库负载也大幅下降,下图列出了优化前和优化后的数据库CPU负载:
图3. 优化前的数据库CPU负载
图4. 优化后的数据库CPU负载
由上图3,4可见,优化前的数据库CPU负载被大量、长时间的95概率大值排序操作占据,负载高居不下。优化后的数据库CPU负载很少达到峰值,高计算负载时的负载平均在80%左右。
5.总结
如何准确高效的完成电能质量监测平台周、月、季、年报表,特别是常用的周、月报表95概率大值计算,是目前电能质量监测平台中的一大难点。本文结合95概率大值的计算流程以及现场电能质量的数据特点,创新性的提出了暂存周月TOP5最大值和经验差值法两种计算方案,大大减少了报表计算需要传送的原始数据量,提高了计算效率,满足了用户对报表计算95概率大值的统计时间要求,获得了现场用户的认可。
参考文献(References)