机器学习第二周笔记 线性回归与Logistic

重点归纳

image.png

关系

函数关系:确定性关系,y=3+10*x
相关关系:非确定性关系

相关系数

image.png

一元线性回归模型

image.png
  • 参数

Y=α+βX+ε
截距项α
斜率β
误差项ε
例子:商品销量s关于电视广告费用t的回归方程:s=10+3.4*t(单位:万元)

  • 如何确定参数
image.png

lm()线性模型函数

image.png
  • 求模型系数

coef(a)

(Intercept) x
-140.36436 1.15906

  • 提取模型公式

formula(a)

y ~ x

  • 计算残差平方和(什么是残差平方和)

deviance(a)

[1] 64.82657

  • 绘画模型诊断图(很强大,显示残差、拟合值和一些诊断情况)

plot(a)

  • 计算残差

residuals(a)

1 2 3 4 5 6 7
-0.8349544 1.5288044 -2.9262307 -1.2899895 -0.8128086 1.2328296 2.8690708
8 9 10 11 12
1.2784678 2.6422265 -3.0396529 3.0737693 -3.7215322

  • 计算方差分析表

anova(a)

  • 提取模型汇总资料

summary(a)

  • 作出预测

z=data.frame(x=185)
predict(a,z)
1
74.0618
predict(a,z,interval="prediction", level=0.95)
fit lwr upr
1 74.0618 65.9862 82.13739

内推插值不外推归纳

多元线性回归模型

image.png
  • 参数估计
    最小二乘法:不一元回归方程的算法相似
image.png

虚拟变量

  • 虚拟变量的定义
  • 虚拟变量的作用
  • 虚拟变量的设置
  • 虚拟变量的使用

应该选择哪些变量?

  • RSS(残差平方和)不R2(相关系数平方)选择法:遍历所有可能的组合,选出使RSS最小,R2最大的模型
  • AIC(Akaike information criterion)准则不BIC(Bayesian information criterion)准则
    AIC=n ln (RSSp/n)+2p
    n为变量总个数,p为选出的变量个数,AIC越小越好

逐步回归
向前引入法:从一元回归开始,逐步增加变量,使指标值达到最优为止
向后剔除法:从全变量回归方程开始,逐步删去某个变量,使指标值达到最优为止
逐步筛选法:综合上述两种方法
step()函数 forward backward both
sl=step(s,direction="forward")

回归诊断

  • 样本是否符合正态分布假设?

正态性检验:函数shapiro.test( X$X1)
P>0.05,正态性分布

  • 是否存在离群值导致模型产生较大误差?
  • 线性模型是否合理?
  • 误差是否满足独立性、等方差、正态分布等假设条件?
  • 是否存在多重共线性?

广义线性模型

image.png
image.png

logistic回归

image.png

非线性模型

你可能感兴趣的:(机器学习第二周笔记 线性回归与Logistic)