R语言多元线性回归、ARIMA分析美国不同候选人对经济GDP时间序列影响

全文链接：http://tecdat.cn/?p=28144

作者：Yuanchang Luo

近段时间，美国总统大选引起了世界各国的关注。共和党候选人唐纳德·特朗普和民主党候选人乔·拜登将角逐总统。两党候选人在金融贸易、经济金融治理以及防控措施等重点发展领域有着不同的政治立场和施政纲领。不同的政治立场的候选人对美国甚至全世界的经济发展有着一定的影响，本文结合具体数据，定量分析不同候选人对美国经济发展的影响。

解决方案

任务/目标

根据美国各指标数据以及两位候选人的不同政策，分析出对美国经济的影响。

数据源准备

在美国政府公开数据集上搜索数据，共 26 类，并且用 GDP 来反映美国经济。得到数据后，由于是时间序列数据，因此通过拉格朗日插值法补充空值。并且，由于是美国政府公开的数据集，因此默认异常值，即较大较小值是由实际历史因素导致的，不作处理。

特征抽取

首先经过观察特征间的相关矩阵以及和因变量的相关性，初步剔除 7 个与因变量相关性非常低且指标间相关性较高的指标，使用剩余１９个自变量作为回归分析的指标。（剔除掉的指标：'美国个人收入中位数','个人所得税（最高）','个人所得税（最低） ','商品和服务出口','金融资产净收购','劳动力市场状况指数','失业率'）

建模

多元线性回归，一般应用与多个特征指标的回归问题。在多元线性回归的过程中，除了考虑模型的 AIC 最小外，还需考虑模型间自变量相互的关系对因变量的影响，即多重共线性，通过 VIF 来剔除相关自变量。 ARIMA，一般应用在时间序列领域上。 ARIMA 模型是指将非平稳时间序列转化为平稳时间序列，然后将结果变量做自回归（AR）和自平移（MA）。

模型优化

1.通过 VIF 准则剔除相关的自变量：

上图为 VIF 最初结果和最终结果。进一步筛选 7 个指标进行预测。

2.通过 AIC 准则选择最优模型

结合各因素的 t 检验以及模型的 AIC，通过向前向后选择的方法，选择出最优的回归模型。

结合上图，确信此回归模型表现良好。

3.时间序列预测自变量

由于美国政府公开的数据截至到 19 年，而我们需要 21 年 1 月份自变量的数据以次来预测不同候选人当选对经济的影响，因此通过时间序列对 5 个指标往后预测 5 季度的数值。

4.不同政策对特征的定量影响

结合不同候选人的政策，可以人为定性的分析出对各特征的影响是增大还是减小，然后通过平均 20 年的数据，算出各特征增大以及减小的百分比均值，以此来估计影响的具体数值。这样一来，对历史数据通过 ARIMA 模型得到 20 年的的数据，然后通过各候选人的不同政策对指标的影响以及历史变动均值，就得到了 21 年四个季度各指标的具体数值，然后通过多元回归所得方程，预测 21 年 4 个季度的 GDP 具体数值。