基于SAS对美国新冠数据的分析

  数据来源于kagglehttps://www.kaggle.com/datasets/antgoldbloom/covid19-data-from-john-hopkins-university https://www.kaggle.com/datasets/eisgandar/covid19-vaccination-age-and-sex-trends-in-usa,主要使用了非齐次方差分析和非参数统计等方法,对新冠疫情在不同变种和不同的疫苗接种情况下的变化情况,分析人类对抗新冠的成果与目前全球防疫策略的评估。

  首先是原始数据的可视化:

基于SAS对美国新冠数据的分析_第1张图片

基于SAS对美国新冠数据的分析_第2张图片

 基于SAS对美国新冠数据的分析_第3张图片

 

 从图中可以得知,目前为止,除了0至5岁/5至11岁两组的儿童因为身体客观原因接种率较低以外,美国其他年龄群体(包括老年人群体)的疫苗前两针接种率是比较高的。但随着德尔塔毒株和奥密克戎毒株的流行,病毒毒性减弱而传染性增强,美国青年人群的加强针接种率并不很高,可见美国的加强针接种策略是保证高危人群即老年人的接种率,而青年人群接种率不高,凭借自身免疫力和前两针疫苗的免疫效果抵抗新毒株。这或许也是美国感染人数居高不下,但死亡率显著下降的原因。这个假设将在下文结合美国具体的疫情数据深入研究。

单因素方差分析:各年龄组之间的第三针接种率是否有显著差异?

数据选取2021年12月,2022年2月及2022年5月的第三针疫苗接种率,对各组接种率进行单因素方差分析,结果如下图所示:基于SAS对美国新冠数据的分析_第4张图片

统计量F的p值<0.0001,可以认为各组的第三针接种率均值有显著区别。由下图也可以看出老年组(F,G),的均值显著高于其他组。基于SAS对美国新冠数据的分析_第5张图片 

美国的疫苗接种政策是否有效降低了整体死亡率? 

接下来将通过分析第三针接种前后死亡率的差异来检验该假设。第三针在美国的接种大约开始于2021年9月,考虑到广泛接种仍需一段时间,将2021年12月作为第三针大量接种完毕的时间节点,检验该时间点前后的死亡率是否有显著差异。考虑到2020年疫苗仍未广泛接种,故死亡率数据仅选择2021年1月后的。

对死亡率数据进行单因素非均衡方差分析,结果如下图所示:基于SAS对美国新冠数据的分析_第6张图片

基于SAS对美国新冠数据的分析_第7张图片 

F统计量p值<0.0001,可以拒绝原假设,认为第三针加强针接种前后死亡率有显著差异。

基于SAS对美国新冠数据的分析_第8张图片 该数据包含2020年至2022年每日的确诊与死亡数字,故先画出时间序列图进行观察。

在确诊情况时间序列图中,可以发现都有两个明显的高峰期,分别在2021年1月至5月,2022年1月至3月,初步假设为德尔塔毒株和奥密克戎毒株的大规模流行时期导致感染人数剧增,而美印两国的疫苗接种率有显著差异,可以据此分析疫苗对于抗病死的有效性。

数据的时间范围选择了2022年1月1日至最近,理由是近期数据更有现实指导意义:短短两年多,新冠病毒已经出现了多种变种毒株,而最新的奥密克戎变种,即是2022年初开始在世界范围内流行的,其极高的传染性甚至让我国的防疫政策也出现了措手不及的情况。

先对两国病死率数据进行正态检验,发现p值<0.05,可以拒绝符合正态分布的假设,故使用非参数检验方法。

对两国病死率的非参数检验结果如下图所示:基于SAS对美国新冠数据的分析_第9张图片

K-S检验的p值为0.0178,可以认为两组数据有显著差异。 

以下为部分源代码:

proc sql;
create table US_whole as
(select Demographic_Category,sum(census) as census,sum(Administered_Dose1) as Dose1,sum(Series_Complete_Yes) as Dose2,sum(Booster_Doses) as Dose3,
  100*sum(Administered_Dose1)/sum(census) as pct_1,100*sum(Series_Complete_Yes)/sum(census) as pct_2,100*sum(Booster_Doses)/sum(census) as pct_3
     from US_vac
	 where Demographic_Category like 'Ages%' and Date='27MAY22:00:00:00'dt
	 group by demographic_category);
quit;

 

proc sql;
create table US_dr as
(select Date,US_death_rate
     from Covid
	 where Date >= '01JAN2021'd and Date <='01JUN2022'd);
quit;

proc sql;
alter table Us_dr add label char(5);
quit;
proc sql;
update Us_dr set label='A'
where Date >= '01JAN2021'd and Date <='01DEC2021'd;
quit;
proc sql;
update Us_dr set label='B'
where Date >= '01DEC2021'd;
quit;
data Us_dr;
set Us_dr(rename=(US_death_rate=C_US_death_rate));
US_death_rate=input(C_US_death_rate,8.);
drop C_US_death_rate;
run;

总结

在感染力迅速变强的变种新冠毒株的侵袭下,疫苗接种仍能发挥其降低死亡率的显著作用,对我国的疫苗接种策略提供了坚定的推进方向:提高老年群体三针疫苗接种率,尽快上市针对新变种的新型疫苗。世卫组织也应加强对发展中国家的医疗援助,更少的感染意味着新变种出现的频数会更低,尽可能避免再次出现德尔塔与奥密克戎这样的反复大流行。

笔者第一次使用SAS软件进行数据分析,但因为该软件支持sql语言,并未遇到使用上的太大困难,但对原生语法的掌握就显得生疏了,在统计分析代码部分花了较多的时间。

你可能感兴趣的:(数据分析,sql)