第18章 模型构建

模型的目标是提供数据集的简单低维摘要。 在本书的上下文中,我们将使用模型将数据划分为模式和残差。
关于残差部分:https://www.jianshu.com/p/c9022affd8b9
关于一元线性方程拟合:http://www.chinacpda.com/jishu/10692.html
关于多元线性方程拟合:https://www.jianshu.com/p/5ae8abee63aa

模拟数据集sim1

> head(sim1)
# A tibble: 6 x 2
      x     y
   
1     1  4.20
2     1  7.51
3     1  2.13
4     2  8.99
5     2 10.2 
6     2 11.3 
sim1

严谨版:这个数据存在一种模式,我们要使用模型来捕获这种模式
通俗版:这数咋都集中在一条斜线附近啊,看着怎么那么像线性关系!那就用线性模型来检验一下!

coef(lm(y~x,data=sim1))
ggplot(sim1,aes(x,y))+geom_point()+geom_abline(intercept =4.220822,slope = 2.05)
方程

y=ax+b a代表直线斜率 b代表直线截距 拟合就是找到一个残差最小的直线

书中介绍了一种非常普遍的方法,也是讲述的是找到最佳模型的过程。
阅读在后边预测的部分其实你就知道了 这条黑线是预测值所连接的一条直线,那么黑点到达黑线之间的距离就叫做残差。可以使用残差图来表示

你可能感兴趣的:(第18章 模型构建)