回归分析中的p值和R方哪个更重要?

     在回归分析中,解释变量的回归系数p值和方程的R方哪个更重要?有人说,我们领域的研究似乎更看重p值,而不管R方这种说法值得商榷。

     在统计上,回归系数的p值很重要,它是前提。但当涉及理论解释时,R方就更重要了。R方反映的是自变量对因变量方差的解释比例,显然,如果影响因变量的全部因素或者“主要因素”、“重要因素”都捕捉到的话,R方就会是比较大的,说明研究模型考虑到了多数重要的影响因素。如果R方很小,比如低于0.2,那说明研究模型只是抓住了影响因变量的次要因素而已,模型遗漏了其他更重要的因素。那什么样的影响因素是主要因素、重要因素?从统计上来看,那些重要因素、主要因素对因变量的标准化回归系数(绝对值)必然是比较大的,因为标准化回归系数反映变量间关系的强弱程度。在一元回归分析中,回归系数的平方就是R方,所以,回归系数小,R方一定小,回归系数大,R方一定大——转换成理论的解释就是,X与Y的关系紧密、相关性越强,R方越大。所以,追求高的R方实际上就是追求相关性高、联系紧密的影响因素。

    那p值呢?p值一方面和变量间的关系(相关系数)有关,另一方面还和样本量有关,我们往往忽视了样本量的影响,认为p值越显著,影响就越大,这个说法其实是不当的。一元回归分析中,X-Y的相关系数即便很小,在大样本的情况下p值也会很显著,这种情况下就会出现,p值很显著(如p<0.001)但R方却很小的情况。在大型数据中,我们一定要警惕这种现象,例如医学等大型调查数据中,很容易发现很多变量都有显著影响,可是标准化回归系数却非常低(例如0.07),这么小的回归系数导致的R方必然很小很小,其结论的理论意义不大。

       那如何取舍呢?个人认为,回归系数的p值显著是前提,不显著的结论是不可靠的(但对进一步的研究仍有预示价值);其次,P值显著的同时还要看标准化回归系数和R方,回归系数小、R方比较低的话,模型拟合度差,此时就要小心说明自变量与因变量的关系问题。此外,要注意效应量的评估,当回归系数比较大或者R方比较大而回归系数不显著时,如果是样本量的问题则可以参考效应量(可查看效应量相关文献),但也可能是共线性的问题,因为共线性会歪曲回归系数的估计。

你可能感兴趣的:(SPSS软件应用,机器学习,人工智能)