RStudio实现空气质量数据可视化

使用工具:RStudio
使用包:RMySQL,Tidyverse,Openair
数据来源:真气网
绘图所用数据:长春市每日数据
前言:
在前期的文章中,
我们学会了如何用
Python实现各地空气质量数据的抓取,
往期文章:Python爬取真气网天气数据
那时的我们迈出了走向人生巅峰的第一步,
学会了如何获取大量可靠的数据。
这样就满足了吗?
不可能的,
这辈子都不可能的。
在这篇文章中,
我们来学习如何利用RStudio实现数据可视化,
看看一年有多少天适宜户外活动。
春天到了,
又到了一年一度的~~~
一、获取所需数据
往期文章:Python爬取真气网天气数据
二、加载所用包and读取数据
本次所用的数据存储在MySQL数据库,
如果你的数据存储在Excel或TXT中,
可以使用readr这个包读取数据,
具体过程不再此赘述.

library(RMySQL)#RMySQL用于连接MySQL数据库
library(tidyverse)#非常强大的包,提供数据导入、分析、可视化一条龙服务
library(openair) #绘制日历图
conn=dbConnect(MySQL(),host='localhost',user='root',password='lixq9010',dbname='changchun',port=3306)#连接数据库
dbSendQuery(conn =conn,'set names gbk') #防止出现中文乱码
#运行结果
dbListTables(conn= conn) #返回数据库中的所有表格
[1]"air_quality" #运行结果
res <-dbSendQuery(conn = conn,'select * from air_quality') #建立air_quality查询对象
air <-dbFetch(res = res,n=-1) #(n=-1)表示提取res对象中的所有数据

三、整理数据
整理数据时出现的问题,
1、日期数据必须为Date类型,
转换函数:as.Date()
2、转化数据时涉及data frame的操作
air$date表示操作air名称表格中的date列。

class(air) #返回air的数据类型,方便后期对air进行操作
[1]"data.frame" #数据框类型
air <-air[,-2:-3] #删除air中的第二及第三列
head(air) #返回air的前几行数据
date PM2.5 PM10SO2  CO NO2 O31 2017-01-01   173 194  74 2.5  54 402 2017-01-02    87 108  69 2.0  52 563 2017-01-03    56  78  60 1.7  50 544 2017-01-04    75 102  79 1.9  73 305 2017-01-05   113 132  69 2.0  80 426 2017-01-06   119 138  94 2.3  80 46air$date <-as.Date(air$date) #将air中date的字符串类型转换为日期类型(重要,不转换后期会报错)
air <-as_tibble(air) #将air转换为tibble类型
head(air) #返回air的前几行(观察到第二行多了各个数据的类型,不用单独查了,实在是太方便)
# A tibble: 6 x 7Date       PM2.5 PM10   SO2    CO  NO2    O3
         1 2017-01-01   173  194    74   2.5   54    40
2 2017-01-02    87  108    69   2     52    56
3 2017-01-03    56   78    60   1.7    50   54
4 2017-01-04    75  102    79   1.9   73    30
5 2017-01-05   113  132    69   2     80    42
6 2017-01-06   119  138    94   2.3   80    46
air <-dplyr::arrange(air,date) #将air按照date的大小排序head(air) #返回air的前几行
# A tibble: 6 x 7 Date       PM2.5 PM10   SO2    CO  NO2    O3         1 2014-01-01    26   51    50   0.6   25    55
2 2014-01-02    47  100    64   1     44    47
3 2014-01-03    90  136    79   1.1   54    40
4 2014-01-04   109  148    72   1.5   63    43
5 2014-01-05   195  264    92   2.3   82    37
6 2014-01-06   129  172    94   1.5   61    53
air2017 <-air[1035:1399,]  #返回air的1035至1399行数据并赋给air2017

四、绘制时间序列曲线
1、数据记录时间:2014-01-01至2018-10-14

plot.ts(subset(air,select=-date),col='red')#绘制时间序列图
image

数据显示结果非常有趣,可以看到长春市的六种环境检测物质呈现出一定的周期性。尤其是SO2,这峰型也太TM标准了。而且其波动高度逐年降低,由此可以推测长春市环保部门对环境保护工作的认识也在逐渐加深,监管力度逐渐增强。
2、当然了我们也可以使用summaryplot()函数快速概览数据整体的情况,时间序列变化、统计指标、频数分布等等

summaryPlot(air) #快速概览数据整体情况
image

五、绘制污染物日历图
这样还是不过瘾,我们想做出一张日历,
这样每天看看日历就能今天是否适宜出行。
通过调用openair中的calendarplot()函数绘制出污染物日历图。本次以PM2.5为例,当我们要出门时不妨看看我们自己绘制的污染物日历图,
嗯,今日不宜出行,
还是接着睡觉吧

calendarPlot(air2017,pollutant= 'PM2.5') #绘制日历图
image

我们根据有关部门的标准,按照标准将PM2.5日均浓度分为几个等级并绘制污染物日历图,使数据结果更直观。

levels <-c(0,35,75,115,150,250,350) #空气质量分类
labels <-c("优","良","轻度污染","中度污染","重度污染","严重污染")
cols <- c('green','yellow','orange','red','purple','maroon') #定义颜色
calendarPlot(air2017,pollutant= 'PM2.5',breaks = levels,labels = labels,cols = cols,statistic ='mean',main='Daily PM2.5 in 2017 Changchun') #绘制日历图
image

由此图可以看到,长春市PM2.5的时间分布,长春每年的十月份至四月份空气中PM2.5含量较多,空气质量相对较差,其他月份优良天数全部满格。欢迎大家5~9月来长春玩,费用自理蛤。
image

硬广:个人公众号:此地古同

你可能感兴趣的:(RStudio实现空气质量数据可视化)