首先题目要求得到电能行业与经济状况、居民消费水平、城市化率和市场化程度等因素的关系,并对供电量进行预测。其中,电能采用供电量数据、经济采用GDP数据,消费水平采用居民收入水平或消费水平数据,市场化采用中国市场化综合指标,再加上城市化率数据,进行相关性分析得到对应关系整体来看,分关系判断和预测两个部分,一是使用相关性分析、差异性分析等方法来判断因素之间的联系程度,包括皮尔逊分析、斯皮尔曼分析等。二是使用时间序列预测模型, 对供电量采用LSTM、ARIMA等模型对时间数据进行预测得到结果。但是供电量受其他因素影响,因此需要添加一定的突发性波动或是非线性规律,也可以采用BP神经网络等进行预测。
首先题目询问是否具有可行性,明确讨论可行性也就是看有没有收益。可以建立综合评价模型对多项指标进行统一评价,包括熵权法、层次分析法、主成分分析法等,本文采用熵权法。同时也可以从投资回报率、回报时间角度看。成本包括固定成本和每一次的维修成本(一般来说会换算成一个固定价格),本文将数据量化为整体投入成本,地理数据则可以采用非耕地面积、位置坡度、距离城镇的距离等,光照条件可以采用太阳光辐射强度和平均光照时间,此外还可以考虑不同地区光伏发电的价格,光伏板容量,系统效率等,作为新的评价指标。
首先对数据进行预处理(可以说明一下我们选择的数据类型),包括缺失值和异常值的剔除与替换。可以使用箱线图法。
当数据中出现异常值,尤其是存在着偏离较大的离群点时,会对数据分析与模型建立带来误差。因此必须对异常值进行检测与剔除。常用的异常值检测方法包括3σ法则、Z分布方法和箱线图法。其中,3σ法则和Z分布方法是以正态分布为假设前提的,而箱线图法[2]对数据分布没有要求。由于本文的数值分布不均匀,不符合正态分布特性。故选择使用对数据分布没有要求的箱线图,对数值型特性进行异常值检测。
使用箱线图对数据进行异常值检测的原理为:通过计算四分位数加减1.5倍四分位距,即是计算Q1-1.5IQR和Q3+1.5IQR的值,规定落在这一区间之外的数据为异常点。在箱线图中,可以看出变量数据的中位数、上四分位数、下四分位数、上下边缘和潜在异常点。本文通过使用上四分位数代替数值大于 Q3+1.5IQR 的数据,使用下四分位数代替数值小于Q1-1.5IQR的数据,并绘制出了异常值的箱线图,如图5-1所示。
在图5-1中,中间线表示中位数,箱子的上下边缘分别表示上四分位数和下四分位数,图中上方和下方的横线表示上下边缘,最上方和最下方的点为潜在离群值。从图中可以看出,婚姻状况、妊娠时间以及整晚睡眠时间这三个数据的异常值较多,而教育程度、分娩方式、CBTS等异常值相对较少,说明数据离群值较少,数据质量相对较好。
为更好地分析电力供应与多种因素相互影响关系,本文对直方图分析,如图5-2所示,可直观地体现各变量在不同取值的分布情况。
(这里可以利用利用函数绘制可视化图增强表达)
观察图5-2可以发现,这里把自己数据的可视化图的变化趋势、定性变化等结论说明一下。
先对现有序列进行预处理后,采用Spearman相关系数表征不同序列之间的相关性。
采用Spearman相关系数进行衡量两个变量之间的非线性关系,通常用于处理非正态分布的数据或有序数据。它的计算公式如下:其中,和分别是观测值的取值的等级,和分别是变量和的平均等级,为观测值的总数量。
Spearman相关系数的取值范围在-1到1之间,:完全正相关,表示两个变量的秩之间存在完全的正相关关系,即一个变量增加时,另一个也增加,并且遵循某种单调函数关系。:完全负相关,表示两个变量的秩之间存在完全的负相关关系,即一个变量增加时,另一个减少,并且遵循某种单调函数关系。:无相关性,表示两个变量的秩之间没有线性或单调关系。
由该图可知,供电量与GDP、居民消费水平、城市化率高度相关,达到……
根据spem代码修改并替换数据得到热力图,然后根据热力图分析结论。
完整代码与论文的获取滴滴我!