【定量分析、量化金融与统计学】R语言:多元线性回归实例

今天来做一个R语言的多元线性回归的实例:

题目是这样的:
练习:度假村排名

旅游胜地,专门介绍高级度假和住宿的杂志《Spas》在“读者选择”评选的世界20家独立海滨精品酒店中榜上有名。所显示的数据是这些酒店根据Resorts温泉年度读者选择调查。每个分数代表了在三个标准(舒适、设施和内部餐饮)之一上认为一家酒店优秀或非常优秀的受访者的百分比。报告中还报告了总分,并用来对酒店进行排名。排名最高的酒店是穆里海滩奥德赛酒店(Muri Beach Odyssey),总分为94.3分,其中内部餐饮得分最高,为97.7分。

需求与问题:

  • A.根据舒适度、设施和内部餐饮的评分,确定可用于预测总体得分的多元线性回归方程。
  • B.采用f检验来确定回归关系的总体显著性。0.01显著性水平下的结论是什么?
  • C.采用t检验来确定每个自变量的显著性。在0.01显著性水平下,每个检验的结论是什么?
  • D.从估计的回归方程中去除所有在0.01显著性水平上不显著的自变量。你估计的回归方程是什么?

数据集截图:

【定量分析、量化金融与统计学】R语言:多元线性回归实例_第1张图片

解题:

读文件并做线性回归:
 

ranking=read.csv(file.choose(), header=TRUE)
head(ranking)

fitmr = lm(ranking$Overall~ranking$Comfort+ranking$Amenities+ranking$In.House.Dining)
summary(fitmr)

 结果:
 

【定量分析、量化金融与统计学】R语言:多元线性回归实例_第2张图片

A:估计的多元线性回归方程为:

B:模型的整体显著性:F(15.98,16), p=0.000(另一种方式:您可以使用ANOVA表的F_value代替)与整体回归关系的F检验相关的p值为4.52386E-05。因为这个p-value小于0.01显著性水平,所以我们拒绝β1 =β 2 = β3 = 0的假设。我们得出结论,在0.01显著性水平上存在整体回归关系。

C:

(1)与估计的回归参数b1相关的p值为0.4117。
因为这个p值大于0.01显著性水平,所以我们不拒绝β1 = 0的假设。
我们的结论是,在控制设施和内部餐饮时,在0.01显著性水平上,舒适度得分和总得分之间没有关系。
(2)与估计回归参数b2相关的p值为3.69454E-05。
因为这个p值小于0.01显著性水平,所以我们拒绝β2 = 0的假设。
我们得出这样的结论:有一个分数在设施之间的关系和整体得分在0.01水平的意义,和我们最好的估计是,如果我们保持舒适和内部餐厅的分数不变,增加一个点设施对应的分数在总体得分增加了0.2443。
(3)与估计的回归参数b3相关的p值为0.0011。

最后结论:
因为这个p值小于0.01显著性水平,所以我们拒绝β3 = 0的假设。
我们认为有一个分数之间的关系内部餐饮和意义的总体得分在0.01水平,和我们最好的估计是,如果我们保持舒适和便利设施上的分数不变,增加一点分数上内部的餐厅在总分对应增加0.2443。
如果舒适、设施和内部餐饮的评分与总分相关,那么这种关系应该是正相关的。结果与对这三种关系的预期一致。 

D:

fitmodi =lm(ranking$Overall~+ranking$Amenities+ranking$In.House.Dining)
summary(fitmodi)

【定量分析、量化金融与统计学】R语言:多元线性回归实例_第3张图片

 

估计的多元线性回归方程为:

模型的总体显著性:F (24.02,17), p=0.000(另一种方式:您可以使用ANOVA表的F_value代替)与总体回归关系的F检验相关的p值为1.1123E-05。
因为这个p-value小于0.01显著性水平,所以我们拒绝β1 = β2 = β0的假设。
我们得出结论,在0.01显著性水平上存在整体回归关系。
与估计回归参数b1(现在对应于便利设施)相关的p值是1.32524E-05。
因为这个p值小于0.01显著性水平,所以我们拒绝β1 = 0的假设。
我们认为有一个分数在设施之间的关系和整体得分在0.01水平的意义,和我们最好的估计是,如果我们保持内部餐厅的分数不变,增加一点分数设施对应增加0.2526总分。
与估计回归参数b2(现在相当于内部用餐)有关的p值是0.0009。
因为这个p值小于0.01显著性水平,所以我们拒绝β2 = 0的假设。
我们认为有一个分数之间的关系内部餐饮和意义的总体得分在0.01水平,和我们最好的估计是,如果我们保持设施上的分数不变,增加一点分数内部餐厅对应增加总体得分0.2483。
对于该多元线性回归模型,整体回归关系显著,估计的回归系数b1和b2显著,符合预期。
该模型的决定系数为R2 = 0.7387。
(a)中包含三个自变量(舒适度、便利设施和内部餐饮)的模型具有R2 = 0.7498的倍数决定系数,
这模型解释了更多的变异1%多一点在样本总体评级比独立变量的模型,该模型只包括设施和内部餐厅作为一个独立变量(即删除舒适度导致损失的更多解释变异在总分的1%)。
因此,首选(d)部分中开发的更简单的多元回归模型。 

你可能感兴趣的:(量化分析,数据分析,定量分析,数据分析)