回归模型重要的基础或者方法就是回归分析,回归分析是研究一个变量(被解释变量)关于另一个(些)变量(解释变量)的具体依赖关系的计算方法和理论, 是建模和分析数据的重要工具。
常见的回归分析模型有:线性回归,逻辑回归,多项式回归,逐步回归。
线性回归:线性回归使用最佳的拟合直线(也就是回归线)在因变量(Y)和一个或多个自变量(X)之间建立一种关系。
逻辑回归:逻辑回归是用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1 / 0,真/假,是/否)变量时,我们就应该使用逻辑回归。
多项式回归:对于一个回归方程,如果自变量的指数大于1,那么它就是多项式回归方程。即:
y=ax^2+bx+c,它是一个用于拟合数据点的曲线。
逐步回归:通过观察统计的值,如R-square(拟合度,越接近1越好),t-stats和AIC指标(寻找可以最好地解释数据但包含最少自由参数的模型,越小越好),来识别重要的变量。即通过同时添加/删除基于指定标准的协变量来拟合模型。
运行stat_smooth()函数并设定method=lm,即可向散点图添加线性回归分析拟合线。
例:我们使用R语言自带数据集heightweight
library(gcookbook)
head(heightweight)
str(heightweight)
library(ggplot2)
p1<-ggplot(heightweight,aes(x=ageYear,heightIn))+geom_point()
p2<-p1+stat_smooth(method=lm,formula=y~x)
p2
默认条件下,stat_smooth()函数的回归拟合线的置信域为95%,可以通过设置level参数来进行调整,当设置se=FALSE时,将不对回归拟合线设置置信域。
p3<-p1+stat_smooth(method=lm,level=0.99,formula=y~x)
p3#左图
p4<-p1+stat_smooth(method=lm,se=FALSE,formula=y~x)
p4#右图
拟合线的颜色(colour),线型(linetype),粗细(size),置信域颜色(fill),透明度(alpha)。
p5<-p1+stat_smooth(method=lm,level=0.99,colour="red",size=2.5,fill="black",alpha=0.2,formula=y~x)
p5 #一般拟合线形的颜色为蓝色,粗细为默认size=2,线型不要变
今天就讲到这里,下次给大家分享如何给散点图添加最优拟合曲线!
本文有参考《R Graphics Cookbook》.