此博文为翻译内容,原文点这里
在R语言中为了拟合一个线性回归模型,我们可以使用lm()函数。函数用法如下:
model <- lm(y ~ x1 + x2, data=df)
我们可以像下面这样用拟合得到的线性回归模型预测新数据的结果:
predict(model, newdata = new)
(这里使用了新的数据“new”,下文有具体的例子)
下面结合几个例子介绍在R语言中如何使用线性回归模型进行预测
下面的代码展示了如何拟合简单线性回归模型:
#create data
df <- data.frame(x=c(3, 4, 4, 5, 5, 6, 7, 8, 11, 12),
y=c(22, 24, 24, 25, 25, 27, 29, 31, 32, 36))
#fit simple linear regression model
model <- lm(y ~ x, data=df)
使用下面的代码可以预测新观测值对应的结果:
#define new observation
new <- data.frame(x=c(5))
#use the fitted model to predict the value for the new observation
predict(model, newdata = new)
1
25.36364
上述模型预测新观测值对应的拟合值为25.36364
下面的代码展示了如何拟合多元线性回归模型:
#create data
df <- data.frame(x1=c(3, 4, 4, 5, 5, 6, 7, 8, 11, 12),
x2=c(6, 6, 7, 7, 8, 9, 11, 13, 14, 14),
y=c(22, 24, 24, 25, 25, 27, 29, 31, 32, 36))
#fit multiple linear regression model
model <- lm(y ~ x1 + x2, data=df)
我们可以通过下面的代码对新观测值的响应结果进行预测:
#define new observation
new <- data.frame(x1=c(5),
x2=c(10))
#use the fitted model to predict the value for the new observation
predict(model, newdata = new)
1
26.17073
上述模型预测新观测值对应的拟合值为26.17073
当尝试对新观测值输入模型进行预测时,出现错误的原因最有可能是用来你和回归模型的观测值的列名称和用来预测所使用的新的观测值的列名称不同
(data.frame类型的数据每一列都有一个名称,线性回归拟合时模型会记录每一列数据的名称,当预测是的自变量各列的名称与模型中的名称不一致,会导致错误)
例如,假设我们得到了如下的多元线性回归模型:
#create data
df <- data.frame(x1=c(3, 4, 4, 5, 5, 6, 7, 8, 11, 12),
x2=c(6, 6, 7, 7, 8, 9, 11, 13, 14, 14),
y=c(22, 24, 24, 25, 25, 27, 29, 31, 32, 36))
#fit multiple linear regression model
model <- lm(y ~ x1 + x2, data=df)
如果我们用下面的新观测值进行预测:
#define new observation
new <- data.frame(x_1=c(5),
x_2=c(10))
#use the fitted model to predict the value for the new observation
predict(model, newdata = new)
Error in eval(predvars, data, env) : object 'x1' not found
这时出现了一个错误,因为新观测值(x_1, x_2)和原来用于得到模型的数据框中的列名称(x1, x2)不一致。
(我是在实验时遇到了类似:
Warning message:
‘newdata’ had 1 row but variables found have 32 rows
这样的提示,并且得不到正确预测结果时,搜索得到了上述内容,模仿着顺利解决了问题,因此记录一下它的用法)
原文地址:https://www.statology.org/r-predict-single-value/