Python机器学习:回归效果评价

回归模型通常是根据最小拟合误差训练得到的模型,因此使用预测值与真实值的均方根误差大小,就能很好地对比和分析回归模型的预测效果。但仅仅分析这是不够的,还有以下几个指标等。

  1. 模型的显著性检验
    建立回归模型后,我们首要关心的就是获得的模型是否成立,那么就要进行模型的显著性检验。模型的显著性检验主要是F检验。在一些库的回归分析输出结果中,会输出F-statistic值(F检验的统计量)和Prob(F-statistic)(F检验的P值)。如果 P r o b < 0.05 Prob<0.05 Prob<0.05,说明在置信度为95%时,可以认为回归模型是成立的;若 P r o b > 0.1 Prob>0.1 Prob>0.1,则说明回归模型整体上没有通过显著性检验,模型不显著,需要进一步调整。

  2. R 2 R^2 R2(R-squared)
    R-squared在统计学中又叫决定系数,用于度量因变量的变异中可由自变量解释部分所占的比例。在多元回归模型中,决定系数的取值范围在[0,1]之间,取值越接近1,说明回归模型的拟合程度越好,模型的解释能力越强。Adjust R-squared表示调整后的决定系数,是对决定系数的一个修正。

  3. AIC和BIC
    AIC又称赤池信息准则,BIC又称贝叶斯信息度量,两者均是评估统计模型的复杂度,取值越小相对应的模型越好

  4. 系数显著性检验
    在模型合适的情况下, 需要对回归系数进行显著性检验,这里的检验是t检验。针对回归模型的每个系数的t检验,如果相应的 P r o b < 0.05 Prob<0.05 Prob<0.05,说明该系数在置信度为95%的水平下,系数是显著的;如果系数不显著,说明对应的变量不能添加到模型中,需要对变量进行筛选,重新建立回归模型。

  5. Durbin-Watson检验(D.W检验)
    D.W统计量是用来检验回归模型的残差是否具有自相关性的统计量,取值在[0,4]之间,数值越接近2说明具有自相关性,越接近4说明残差具有越强的负自相关性,越接近0说明残差具有越强的正自相关性。如果模型的残差具有很强的自相关性,则需要对模型进行进一步调整。

  6. 条件数(Cond.No.)
    条件数是用来度量多元回归模型中,自变量之间是否存在多重共线性的指标。条件数取值是大于0的数值,值越小,越能说明自变量之间不存在多重共线性问题。一般情况下, C o n d . N o . < 100 Cond.No.<100 Cond.No.<100说明共线性程度小;如果 100 < C o n d . N o . < 1000 100100<Cond.No.<1000,则存在较多的共线性;若 C o n d . N o . > 1000 Cond.No.>1000 Cond.No.>1000,则存在严重的多重共线性,可以使用逐步回归、主成分回归、LASSO回归等方式调整模型。

来自《Python机器学习与算法》一书,作者:孙玉林/余本国

你可能感兴趣的:(机器学习笔记,python,回归)