线性回归及在R中应用(一)

回归模型就是假定因变量自变量之间有某种关系,希望能够用适当的数学模型把这种关系表达出来,进而利用这一模型根据给定的自变量来预测因变量。只涉及一个自变量时称为一元回归,涉及多个因变量为多元回归,如果因变量与自变量之间是线性关系,称线性回归(linear regression),如果非非线性关系称为非线性回归。

用途:预测,判别合理性

线性回归分析:一元线性;多元线性;广义线性

困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否合理

一元线性回归模型

若X与Y之间存在着较强的相关关系,则我们有Y≈α+βX

若α与β的值已知,给出相应的X值,我们可以根据Y≈α+βX得到相应的Y的预测值,即

其中α为截距,β为斜率,ε为误差项

如何确定参数?

(1)设真实值为 y,预测值为,寻找合适的参数,使的平方误差和最小

线性回归及在R中应用(一)_第1张图片

(2)最小二乘法


RSS其实是关于α与β的函数,分别对α不β求偏导并令偏导等于0,就可以得出α不β的值


从而,对于每个xi,我们可以通过 预测相应的y值


在R中进行线性回归分析

适用于多远线性模型的基本函数是lm(),其调用形式是fitted.model<-lm(formula,data=data.frame)

其中formula为模型公式,data.frame为数据框,返回值为线性模型结果的对象,存放在fitted.model中。如

fm1 <- lm(y~x1+x2,data=production)

适应于y关于x1和x2的多元回归模型(隐含着截距项)

y~1+x或y~x均表示y=a+bx有截距形式的线性模型

        通过远点的线性模型可以表达为:y~x-1或y~x+0或y~0+x

与线性模型有关的R函数使用


线性回归及在R中应用(一)_第2张图片



线性回归及在R中应用(一)_第3张图片线性回归及在R中应用(一)_第4张图片


summary(a)输出结果分析

得到输出结果如下:


汇总数据的解释

w=α+βh

-140.3644为截距α,1.1591为斜率β,0.1.79为β的标准差,17.5026为α的标准差

  Estimate(估计值) Std.Error(标准差) t value(t假设检验) Pr(>|t|)(用来与显著性水平比较决定是否接受该假设检验) 显著性标记(***极度显著,**高度显著,*显著,圆点不太显著,没有记号不显著)
Intercept(截距α) 截距 截距标准差 截距进行假设检验的t值    
h(斜率β) 斜率 斜率标准差 斜率进行假设检验的t值    


Residuals:残差分析数据,包括最大最小值,四分位数等
Coefficients:回归方程的系数,以及推算的系数的标准差,t值,P-值
F-statistic:F检验值
Signif:显著性标记,***极度显著,**高度显著,*显著,圆点不太显著,没有记号不显著

Multiple R-squared为相关系数平方







你可能感兴趣的:(线性回归及在R中应用(一))