相关分析与回归分析变量选择方法(笔记)

变量间的关系分析:

变量间的关系有两类:存在明确的关系-函数关系;不存在完全确定性。

相关变量关系有两种:平行关系——相互影响;依存关系——变量a收到变量b的影响。

变量间关系及分析方法:

a.函数关系(确定性关系)——数学表达式(数学模型)

b.相关关系(非确定性的关系)——b1.平行关系(相关分析);b2依存关系(回归分析)

b1.平行关系(相关分析)——b11.一元相关分析——线相关分析;b12多元相关分析——复相关分析;典型相关分析;

b2.依存关系(回归分析)——b21.一元回归分析:线性回归分析,非线性回归分析;b22.多元线性回归分析;多元非线性回归。

相关分析以现象之间是否相关、相关(正负)、密切程度为主要内容,不区分自变量与因变量,也不关心各个变量的构成形式。主要分析法:绘制相关图、计算相关系数和检验相关系数。

相关系数rou: rou=cov(x,y)/sqrt(var(x)*var(y))

Pearson相关系数:r=s_{xy}/sqrt(s_x^2+s_y^2)=sum(x-mean(x))(y-mean(y))/sqrt((x-mean(x))^2*(y-mean(y))^2)


回归变量的选择方法

在多元回归分析中,并不是变量越多越好。变量多会增加模型复杂度、计算量增大、估计与预测精度下降、模型应用费用增加。

变量选择常用准则:

1.平均残差平方和最小准则:RMS_p=RSS_p/(n-p)

2.误差均方根MSE最小准则:MSE_p=sqrt(RMS_p)

3.校正复相关系数平方(Adjusted R^2)准则

adjR^2=1-(1-R^2)(n-1)/(n-p);

4.C_p准则

C_p=RSS_p/s^2-(n-2p)=(n-p)RMS_p/MSE-(n-2p)

5.AIC和BIC准则:AIC=n*ln(RSS_p/n)+2p;BIC=n*ln(RSS_p/n)+p*ln(n);




你可能感兴趣的:(数据挖掘)