2021华为杯b题思路

转自你好呀数模君的博客
为作者撒花https://blog.csdn.net/qq_39899679/article/details/120775975?utm_source=app&app_version=4.16.0&code=app_1562916241&uLinkId=usr1mkqgl919blen
第一问,按照附录的实例计算AQI,第一问要用到的是附件1中“监测点A逐日污染物浓度实测数据”,BPHi、BPLo、IAQIHi、IAQILo这四个参数不用纠结,直接用案例中的就行,这是一Hi和Lo两个元素的参数值做参考计算的,而Cp才是变量,指的是p物质的浓度值,计算的时候注意单位,Cp应当化为μg/m³进行计算,AQI最终的值取所有污染物为作者大大大啦的AQImax,首要污染物也就是AQImax最大的p物质
第二问,这里用“监测点A逐小时污染物浓度与气象实测数据”中的数据来做,首先观察“监测点A逐小时污染物浓度与气象一次预报数据”中的数据,预报的数据有明显周期性,而“监测点A逐小时污染物浓度与气象实测数据”中的数据周期性不是很强。这里先说说正确的预测做法再来看第二问,一次预报部分不用多说,给了未来的值,我们就默认是已有的系统给出的数据,然后看实测数据,到最后能够有的数据只有到2021-7-13 7:00,而一次预报中最新的数据时间为2021-7-15 23:00,那么这里很显而易见了,在结合“监测点A逐小时污染物浓度与气象实测数据”中的数据进行分析时,考虑天气的影响不是说取接下来的一个小时来反映,并且考虑到每天的数据是存在一定的周期的,特别是温度变化,那么应当就考虑有一个周期以上时间间隔的变化来反映。那么这里我们就设定为三个周期,也就是三天,就是说用2021-7-12 7:00、2021-7-15 7:00时刻的温度、湿度、气压、风速、风向变化量,这里可以是变化的百分比,影响的结果为2021-7-12 7:00、2021-7-15 7:00两个时刻的各污染物变化量。接下来的分类,题目说的是根据对污染物浓度的影响程度,对气象条件进行合理分类,这里涵盖了几个信息,第一个是初始时刻气象条件(温度、湿度、气压、风速、风向),第二个是到第三个周期同时刻的气象变化量,第三个是污染物初始时刻的浓度,第四个是污染物第三个周期同时刻的污染物浓度变化量,也就是说总共会有22个指标,然后进行无监督分类,可以分细一点,分十多个类别也不为过,为什么第二问要这么做,这样更能与第三问衔接上第三问,基本上第二问说了大部分的思想,以附件1中监测点A为例,我们先来看可以用到哪些指标,再来说降维,“监测点A逐小时污染物浓度与气象一次预报数据”这个表,第二列插入一列,第一种构建数据集的做法:针对每个运行日期,例如以2020-7-23为例,复制三组当天的周期时间;第二种: 以三天为间隔周期设定时间。接下来按B列的时间将“监测点A逐小时污染物浓度与气象实测数据”中的数据对应过来,接下来将原本所属“监测点A逐小时污染物浓度与气象一次预报数据”中的指标和“监测点A逐小时污染物浓度与气象实测数据”的气象指标作为输入,“监测点A逐小时污染物浓度与气象实测数据”中的污染物浓度作为输出。第二个表的数据匹配过来后,第一个表中未匹配到的就不用考虑了。接下来的做法是将SO2监测浓度、NO2监测浓度、PM10监测浓度、PM2.5监测浓度、O3监测浓度、CO监测浓度视为六个模型,然后可以用一些相关性的方法(灰色关联、皮尔逊、秩相关、肯德尔、余弦、典型相关分析、Elasticsearch相关性…)分别找出相关性Top前k个指标构建指标体系,然后可通过两种方式构建预测模型,第一种预测模型可以是神经网络(深度学习)、决策树系列(Xgboost)、其他机器学习算法等拿不到关系式的算法模型,也可以是回归系列能求出关系式的模型,第一种做法不用多说,算法内置函数本身就是非线性,最后绘制一些误差、性能检验图即可,第二种回归的非线性做法简单讲下,虽然我们看回归算法都是线性拟合的,但是可以添加非线性变量,例如x=[X(:,1:15),X(:,1:15).2,X(:,1:15).3,X(:,1:15).4,X(:,1:15).5,exp(X(:,1:15))];构建一个非线性自变量集,然后直接带入算法求参数。由此可以得出2021-7-13 8:00到2021-7-15 23:00各污染物浓度数据,“监测点A逐日污染物浓度实测数据”表中的数据其实是当天0:00到23:00数据的平均值,只不过四舍五入了下,得到每天的各污染物浓度后,按第一问计算方式计算得到AQI。最后按污染物浓度及AQI预测结果表样例整理出结果放论文中。 或 第四问,如果说单独对A、A1、A2、A3分析,方法同第三问,但是本问要考虑隔壁监测点的环境,相当于本问的数据集中可选的指标不仅有自家的,还有隔壁老王的。其实也同样可以按第三问做法来做,唯一的区别就是第三问中构建6种污染物浓度指标体系的时候合并其他三个检测点的数据集,同样用相关性方法选取,第四问可能就是4*6个指标体系了。

你可能感兴趣的:(笔记)