【2024华数杯国际数学建模竞赛】问题A 光伏发电 完整代码+结果分析+论文框架(一)

问题A

  • 数据搜集
  • 一、问题分析
    • 问题一
    • 问题二
  • 二、模型假设
  • 四、符号说明
  • 五、模型的建立与求解
    • 5.1问题一模型的建立与求解
      • 5.1.1基于箱线图的数据预处理
      • 5.1.2描述性统计分析
      • 5.1.3基于斯皮尔曼系数的相关性分析
      • 5.1.4基于LSTM的时间序列预测模型
      • 5.1.5 LSTM的时间序列预测结果
      • 5.1.6 多元回归模型的预测结果
      • 5.1.7 LSTM时间序列模型的性能评价
    • 5.2问题二模型的建立与求解
      • 5.2.1基于皮尔逊系数相关性分析的降维模型
      • 5.2.2基于topsis的熵权法综合评价模型

数据搜集

  • 国家能源局
  • 国家统计局
  • 政府信息公开
  • CEIC Data等

一、问题分析

问题一

首先题目要求得到电能行业与经济状况、居民消费水平、城市化率和市场化程度等因素的关系,并对供电量进行预测。其中,电能采用供电量数据、经济采用GDP数据,消费水平采用居民收入水平或消费水平数据,市场化采用中国市场化综合指标,再加上城市化率数据,进行相关性分析得到对应关系整体来看,分关系判断和预测两个部分,一是使用相关性分析、差异性分析等方法来判断因素之间的联系程度,包括皮尔逊分析、斯皮尔曼分析等。二是使用时间序列预测模型, 对供电量采用LSTM、ARIMA等模型对时间数据进行预测得到结果。但是供电量受其他因素影响,因此需要添加一定的突发性波动或是非线性规律,也可以采用BP神经网络等进行预测。

问题二

首先题目询问是否具有可行性,明确讨论可行性也就是看有没有收益。可以建立综合评价模型对多项指标进行统一评价,包括熵权法、层次分析法、主成分分析法等,本文采用熵权法。同时也可以从投资回报率、回报时间角度看。成本包括固定成本和每一次的维修成本(一般来说会换算成一个固定价格),本文将数据量化为整体投入成本,地理数据则可以采用非耕地面积、位置坡度、距离城镇的距离等,光照条件可以采用太阳光辐射强度和平均光照时间,此外还可以考虑不同地区光伏发电的价格,光伏板容量,系统效率等,作为新的评价指标。

二、模型假设

  • 假设中国在未来几十年内经济持续稳定增长,电力行业稳步推进。
  • 假设中国政府继续实施光伏发电等可再生能源的优惠与补贴政策。
  • 假设中国的土地和其他自然资源对光伏发电的发展有一定的限制作用,需要在资源有限的情况下进行优化配置。

四、符号说明

五、模型的建立与求解

5.1问题一模型的建立与求解

5.1.1基于箱线图的数据预处理

首先对数据进行预处理(可以说明一下我们选择的数据类型),包括缺失值和异常值的剔除与替换。可以使用箱线图法。

当数据中出现异常值,尤其是存在着偏离较大的离群点时,会对数据分析与模型建立带来误差。因此必须对异常值进行检测与剔除。常用的异常值检测方法包括3σ法则、Z分布方法和箱线图法。其中,3σ法则和Z分布方法是以正态分布为假设前提的,而箱线图法[2]对数据分布没有要求。由于本文的数值分布不均匀,不符合正态分布特性。故选择使用对数据分布没有要求的箱线图,对数值型特性进行异常值检测。

【2024华数杯国际数学建模竞赛】问题A 光伏发电 完整代码+结果分析+论文框架(一)_第1张图片
根据box代码替换自己的数据

使用箱线图对数据进行异常值检测的原理为:通过计算四分位数加减1.5倍四分位距,即是计算Q1-1.5IQR和Q3+1.5IQR的值,规定落在这一区间之外的数据为异常点。在箱线图中,可以看出变量数据的中位数、上四分位数、下四分位数、上下边缘和潜在异常点。本文通过使用上四分位数代替数值大于 Q3+1.5IQR 的数据,使用下四分位数代替数值小于Q1-1.5IQR的数据,并绘制出了异常值的箱线图,如图5-1所示。
在图5-1中,中间线表示中位数,箱子的上下边缘分别表示上四分位数和下四分位数,图中上方和下方的横线表示上下边缘,最上方和最下方的点为潜在离群值。从图中可以看出,婚姻状况、妊娠时间以及整晚睡眠时间这三个数据的异常值较多,而教育程度、分娩方式、CBTS等异常值相对较少,说明数据离群值较少,数据质量相对较好。

5.1.2描述性统计分析

为更好地分析电力供应与多种因素相互影响关系,本文对直方图分析,如图5-2所示,可直观地体现各变量在不同取值的分布情况。
(这里可以利用利用函数绘制可视化图增强表达)
【2024华数杯国际数学建模竞赛】问题A 光伏发电 完整代码+结果分析+论文框架(一)_第2张图片
观察图5-2可以发现,这里把自己数据的可视化图的变化趋势、定性变化等结论说明一下。

5.1.3基于斯皮尔曼系数的相关性分析

先对现有序列进行预处理后,采用Spearman相关系数表征不同序列之间的相关性。
采用Spearman相关系数进行衡量两个变量之间的非线性关系,通常用于处理非正态分布的数据或有序数据。它的计算公式如下:其中,和分别是观测值的取值的等级,和分别是变量和的平均等级,为观测值的总数量。

Spearman相关系数的取值范围在-1到1之间,:完全正相关,表示两个变量的秩之间存在完全的正相关关系,即一个变量增加时,另一个也增加,并且遵循某种单调函数关系。:完全负相关,表示两个变量的秩之间存在完全的负相关关系,即一个变量增加时,另一个减少,并且遵循某种单调函数关系。:无相关性,表示两个变量的秩之间没有线性或单调关系。

【2024华数杯国际数学建模竞赛】问题A 光伏发电 完整代码+结果分析+论文框架(一)_第3张图片
由该图可知,供电量与GDP、居民消费水平、城市化率高度相关,达到……
根据spem代码修改并替换数据得到热力图,然后根据热力图分析结论。

5.1.4基于LSTM的时间序列预测模型

5.1.5 LSTM的时间序列预测结果

5.1.6 多元回归模型的预测结果

5.1.7 LSTM时间序列模型的性能评价

5.2问题二模型的建立与求解

5.2.1基于皮尔逊系数相关性分析的降维模型

5.2.2基于topsis的熵权法综合评价模型

【2024华数杯国际数学建模竞赛】问题A 光伏发电 完整代码+结果分析+论文框架(一)_第4张图片
【2024华数杯国际数学建模竞赛】问题A 光伏发电 完整代码+结果分析+论文框架(一)_第5张图片

完整代码与论文的获取滴滴我!

你可能感兴趣的:(数学建模,数学建模,matplotlib,python)