概率统计大作业

对上海近年(2013年12月~2020年6月)空气质量分析

关键词

空气质量,正态分布,参数估计

摘要

空气质量与人们的生活息息相关,本研究对于上海的从2013年12月~2020年6月每月的空气质量指数(AQI)进行分析,希望能够找到空气质量与不同季度之间的关系,并且进一步对于空气质量指数进行参数估计,从而得到上海近些年来空气质量的发展趋势和总体水平。

  • 研究背景

近年来,随着人们生活水平的提高和社会的发展,人们开始越来越关注自己身边的环境问题,其中最经常为人们所热议的就是空气质量问题,因为这与每个人的生活息息相关。如果不关注空气质量,一味为了快速发展而无限制地进行一些重工业作业,并不经净化地就将一些含有大量污染物质的工业废气,汽车尾气排放进入环境,1952年的伦敦烟雾事件就是一个例子,约4000多人因糟糕的空气而死亡,在我国还没有对空气质量提出标准时,每逢冬天空气难以形成对流,我国北方的一些重工业城市附近就容易产生大量雾霾,这些雾霾既遮挡视线也对呼吸系统有害,是我们应该致力于消除的。如今,我们有了量化空气质量的标准,空气质量指数AQI,并且也能够对于空气中的每种污染物进行量化检测(如PM2.5,PM10等),从这些数据的比较中我们可以看出目前空气质量的变化趋势,并且分析出空气质量指数的置信区间和估计空气质量指数分布的各个参数,这里我们采用上海近年的空气质量指数,以便我们对于上海空气质量有了进一步的了解。

  • 问题研究

首先对于空气质量指数进行研究,设随机变量Xij,k为第i年第j个月第k天的空气质量指数(2013=

以2020年五月的数据为例。要说明相邻两天的空气质量指数互相独立,只要说明D(Xijk+Xijk+1)=D(Xijk)+D(Xijk+1)即可,这里我们用两者的样本方差作为方差的估计值,不使用样本的二阶中心矩是因为样本方差是无偏估计量而样本二阶中心矩不是。取k从1到30,则δ2(Xijk+Xijk+1)≈2056.39δ2(Xijk)≈847.04δ2Xijk+1≈851.70,则根据公式ρXY=cov(X,Y)D(X)D(Y)可以计算得出这里的相关系数ρ≈0.21,可以看出,从2020年5月份的数据上来看,相邻两天的空气质量指数是正相关的并不是相互独立的,这点是可以理解的,从直觉上来说,假如某天的空气质量很差,那么某天的后一天空气质量很差的概率就会更高,又由于这里相关系数约为0.21,所以两者之间是弱相关,为了下一步的研究,将相邻两天的空气质量指数看作互相独立的,则每一天的空气质量指数都可以被看做是互相独立的。

EXijk=μ,DXijk=σ2≠0,则在一个月内,随机变量Xij,k互相独立,则根据独立同分布的中心极限定理k=1nXijk-nμnσ~N0,1,n取决于每个月的天数,则设Yij=k=1nXijkn Yij服从正态分布,Yi,j的意义即为每个月的空气质量指数的平均值,可以得出EYijDYij=σ2。这里需要注意方差的变化,YijXij,k的方差是不一样的,事实上,当我们得出了Yi,j服从正态分布这个结果后,我们不会再去关心Xij,k,因为一天空气质量的好与坏的分布很难准确求出,而每个月的空气质量指数平均值显然是更有统计意义的。这个接下来进行参数估计。由于对12个月每个月的参数进行估计工作量过大,而相邻月份之间的参数变化不大,则将一年分为4个季度进行估计(1-3月为第一季度,每个季度三个月,以此类推)。先采用矩估计法进行点估计,则根据《概率论与数理统计(第五版)》p162例7.3的推导,μ=Yi,jσ2=j=1n(Yij-Y)2n,可以得到以下表格(不考虑2013年和2020年因为这两年的数据不完整),先评价一下这两个估计量,对于μ,根据《概率论与数理统计(第五版)》p167-p169,可以证明这个估计量具有无偏性和一致性,有效性相对其他加权平均也是最佳的,所以较可信,再看σ2n这个估计量,同样可以证明这个估计量不具有无偏性(样本方差才有无偏性),自然也就没有有效性,但是这个估计量具有一致性limn->∞D(σ2n)=0,所以在接下来的分析中我会更加关注μ这个估计量。

2014年

μ

σ2

第一季度

86.33

149.56

第二季度

81.67

106.89

第三季度

70

8.67

第四季度

83.33

124.22

2015年

μ

σ2

第一季度

94

158

第二季度

81.67

21.56

第三季度

83

8.67

第四季度

95.33

164.22

2016年

μ

σ2

第一季度

87.33

107.56

第二季度

87.33

36.67

第三季度

74

234

第四季度

73.33

314.89

2017年

μ

σ2

第一季度

73.67

6.22

第二季度

87.33

10.89

第三季度

96

308.67

第四季度

77.67

253.67

2018年

μ

σ2

第一季度

74.33

97.56

第二季度

79.33

0.89

第三季度

58.667

76.22

第四季度

68.33

6.89

2019年

μ

σ2

第一季度

75.33

53.56

第二季度

76.33

46.89

第三季度

67.33

9.56

第四季度

71

50.67

则做出图像后如下:

概率统计大作业_第1张图片

则通过图像我们可以得知环比来说,空气质量指数在第二季度和第三季度较低,在第一季度和第四季度较高,这与我们的预期相符,即春夏两季空气质量相较秋冬两季好,至于数据差异并不是非常明显的原因,是因为第一季度和春天并不重合,所以导致每个季度之间的差异减小了。另外观察方差的情况我们可以观察出一个非常有趣的现象,那就是在第三季度空气质量指数相对稳定,可以看到除了2016年和2017年,剩余年份的方差都极低,我认为原因可能是上海处于亚热带季风气候,降水丰富且大多数集中于5月到9月的汛期,在工厂排气和汽车尾气排放相对不变的情况下,由于降雨量和风向相对稳定,导致了第三季度,也可以说是夏季,空气质量相对稳定。另外从我自身个人经验来说,上海的春,秋,冬三个季节气候是不太稳定的,经常出现突然降温或是升温十度以上的情况,但是夏天的气候却是非常稳定的炎热,我从来没有在夏天感到过凉快。不过要探究进一步的原因需要进一步研究,以上原因仅为个人经验。

概率统计大作业_第2张图片

然后我们再来看各个季度同比空气质量变化,可以看出各个季度的空气质量指数和年份的关系不大,基本都在80上下浮动,而80属于良级别,对极少数敏感人群有影响,但是空气质量可以接受,所以总体来说,近些年上海的空气质量较好且较稳定。

接着对μσ2进行区间估计。由于此时我们更加关心空气质量指数的置信区间,而σ2的置信区间相对来说不太重要,所以接下来主要是计算μ的置信区间。先计算置信度为0.05的双侧置信区间,根据公式(X-tα2(n-1)Sn,X+tα2(n-1)Sn),查表知α=0.05tα2n-1=2.1098,所以四个季度的μ区间估计如下(不考虑每一年每个季度的参数,将同一季度放在一起估算参数):

季度

μ双侧置信区间

第一季度

(15.24,179.56)

第二季度

(54.27,110.29)

第三季度

(0,206.66)

第四季度

(0,207.62)

由于空气质量较好的时候我们不会在意空气质量,但空气差的时候很多人会开始抱怨,所以人们普遍更加关心空气最差的情况,所以这里我们继续计算μ的置信度为0.05的单侧置信上限,利用公式(0,X+tα(n-1)Sn)

季度

μ单侧置信上限

第一季度

165.14

第二季度

105.38

第三季度

183.52

第四季度

184.93

从这个单侧置信上限我们可以看出,μ的上限最高不超过190,而空气质量指数>200时为重度污染,且μ越大的概率越低,这也就是说上海每季度的空气质量指数只有小于5%的概率服从一个μ>200的正态分布,根据正态分布的对称性,μ>200即每个季度有一半以上的天数空气质量为重度污染,从这个角度看,上海的空气质量还是相对较好的。

  • 研究结论

本文通过对于上海2013年到2020年的空气质量指数的分析,得出了以下几个结论。1.相邻两天的空气质量指数之间为弱相关。2.上海近年来空气质量较为稳定,根据年份变化的趋势不大。3.上海的第二第三季度空气质量指数较低,空气质量较好,同时在这段时间内样本方差较小,即空气质量较为稳定,可能原因是上海属于亚热带季风性气候,夏季降水量稳定导致的空气质量好且稳定。4.上海的空气质量总体来说较好,全年出现过半天数为重度污染的概率不大,这也是符合上海市民认知的,毕竟近些年来雾霾在上海的讨论度并没有我国其他一些城市高。

  • 研究不足与反思

本研究限于作者水平有以下几个问题。首先是数据的利用率不够,搜集来的数据除了空气质量指数还有PM2.5,PM10等的各项数据,如果逐项分析,应该可以分析出上海在不同时间受哪项污染物的影响较大,从而可以提出一些可行的方案来减少空气污染(比如假设分析结果是氮氧化物对空气质量影响较大就可以提议减少汽车尾气排放等的措施)。其次是近似的次数有些过于多了,这是受限于作者水平,因为如果不近似接下来的分析就超出我的知识范围了,于是我提出了诸如一个季度内各个月空气质量指数平均值服从同一个参数的正态分布,相邻两天的空气质量指数互相独立等等与事实并不一致的假设。第三点是尺度选择有些混乱,因为既要做总体的数据,又要进行同比和环比的对比,导致我在参数估计的时候实际上选择了各个季度数据的平均值,这又需要假设每一年每个季度的分布是大致相同的。最后一点是缺乏假设检验,这点是我研究问题流程上设计的失误,由于我将所有数据都拿来计算μσ2了,导致最后没有一组新的数据来做一下检验,在2020年第三季度结束后可以用这组数据来检验一下第三季度μ的范围。不过总体来说较好地利用了上课所学的知识对于空气质量做出了分析并得出了一些有趣的结论。

  • 参考文献及数据来源

[1]冯卫国,武爱文.概率论与数理统计(第五版)[M].上海.上海交通大学出版社,2018

[2]上海空气质量指数月统计历史数据.[EB/OL].

https://www.aqistudy.cn/historydata/monthdata.php?city=%E4%B8%8A%E6%B5%B7

你可能感兴趣的:(概率统计大作业)