机器学习第二周笔记线性回归与Logistic

重点归纳

image.png

关系

函数关系：确定性关系，y=3+10*x
相关关系：非确定性关系

一元线性回归模型

image.png

参数

Y=α+βX+ε
截距项α
斜率β
误差项ε
例子：商品销量s关于电视广告费用t的回归方程：s=10+3.4*t（单位：万元）

如何确定参数

image.png

lm()线性模型函数

image.png

求模型系数

coef(a)

(Intercept) x
-140.36436 1.15906

提取模型公式

formula(a)

y ~ x

计算残差平方和（什么是残差平方和）

deviance(a)

[1] 64.82657

绘画模型诊断图（很强大，显示残差、拟合值和一些诊断情况）

plot(a)

计算残差

residuals(a)

1 2 3 4 5 6 7
-0.8349544 1.5288044 -2.9262307 -1.2899895 -0.8128086 1.2328296 2.8690708
8 9 10 11 12
1.2784678 2.6422265 -3.0396529 3.0737693 -3.7215322

计算方差分析表

anova(a)

提取模型汇总资料

summary(a)

作出预测

z=data.frame(x=185)
predict(a,z)
1
74.0618
predict(a,z,interval="prediction", level=0.95)
fit lwr upr
1 74.0618 65.9862 82.13739

内推插值不外推归纳

多元线性回归模型

image.png

参数估计
最小二乘法：不一元回归方程的算法相似

image.png

虚拟变量

虚拟变量的定义
虚拟变量的作用
虚拟变量的设置
虚拟变量的使用

应该选择哪些变量？

RSS（残差平方和）不R2（相关系数平方）选择法：遍历所有可能的组合，选出使RSS最小，R2最大的模型
AIC（Akaike information criterion）准则不BIC（Bayesian information criterion）准则
AIC=n ln (RSSp/n)+2p
n为变量总个数，p为选出的变量个数，AIC越小越好

逐步回归
向前引入法：从一元回归开始，逐步增加变量，使指标值达到最优为止
向后剔除法：从全变量回归方程开始，逐步删去某个变量，使指标值达到最优为止
逐步筛选法：综合上述两种方法
step()函数 forward backward both
sl=step(s,direction="forward")

回归诊断

样本是否符合正态分布假设？

正态性检验：函数shapiro.test( X$X1)
P>0.05，正态性分布

是否存在离群值导致模型产生较大误差？
线性模型是否合理？
误差是否满足独立性、等方差、正态分布等假设条件？
是否存在多重共线性？

广义线性模型

image.png

logistic回归

image.png

机器学习第二周笔记线性回归与Logistic

重点归纳

关系

一元线性回归模型

lm()线性模型函数

内推插值不外推归纳

多元线性回归模型

虚拟变量

应该选择哪些变量？

回归诊断

广义线性模型

logistic回归

非线性模型

你可能感兴趣的:(机器学习第二周笔记线性回归与Logistic)

机器学习第二周笔记 线性回归与Logistic

重点归纳

关系

一元线性回归模型

lm()线性模型函数

内推插值不外推归纳

多元线性回归模型

虚拟变量

应该选择哪些变量？

回归诊断

广义线性模型

logistic回归

非线性模型

你可能感兴趣的:(机器学习第二周笔记 线性回归与Logistic)

机器学习第二周笔记线性回归与Logistic

你可能感兴趣的:(机器学习第二周笔记线性回归与Logistic)