Logistic 回归丨数析学院

问题

你想实现一个 logistic 回归模型。

解决方案

一个logistic 回归通常是用在一个二分变量(如赢或者输),或者一个连续变量往往和输赢的概率有关。 当然它也可以被用在分类预测,包括多个分类预测。

假设我们使用R内涵数据集mtcars 来开始说明。在下面的示例中,我们使用vs作为结果变量, mpg是一个连续的预测变量, am 是一个二分的预测变量。

自变量(independent)、控制变量(control&controlled)、解释变量(explanatory)、 预测变量(predictor)、回归量(regressor)是同一个含义。

Logistic 回归丨数析学院_第1张图片
18ed
Logistic 回归丨数析学院_第2张图片
19ed

连续的预测变量, 二分类型的因变量

如果数据集有一个二分变量和一个连续的变量,而且连续变量是二分变量出现概率的预测变量, 这个情况下logistic 回归很受青睐。

在这个示例中, mpg是连续的预测变量,vs是二分类型的结果变量。

Logistic 回归丨数析学院_第3张图片
20ed

看一下回归的结果信息:

Logistic 回归丨数析学院_第4张图片
21ed
Logistic 回归丨数析学院_第5张图片
22ed
Logistic 回归丨数析学院_第6张图片
23ed

绘图

数据集合logistic回归的结果可以使用ggplot2和基本绘图包来绘制:

Logistic 回归丨数析学院_第7张图片
24ed

二分类型的预测变量, 二分类型的因变量
下列过程与上文中的十分相似,在下面的例子里,am是一个二分型的预测变量,而vs则是一个二分型的因变量。

Logistic 回归丨数析学院_第8张图片
25ed
Logistic 回归丨数析学院_第9张图片
26ed

绘图 Plotting

与第一个种情况相似,数据集合logistic回归的结果可以使用ggplot2和基本绘图包来绘制。不过需要说明的是,由于我们的预测变量也是二分型,图表所传达的信息便没有在连续型预测变量的情况下那么丰富了,此时图上的点只能出现在4个位置,这同时帮助我们约束了图表的大小:


Logistic 回归丨数析学院_第10张图片
27ed

同时含有连续的和二分类型的预测变量, 二分类型的因变量

和之前的例子类似,在下面的例子中,mpg是一个连续型的预测变量,am是一个二分型的预测变量,而vs则是一个二分型的因变量。


Logistic 回归丨数析学院_第11张图片
28ed
Logistic 回归丨数析学院_第12张图片
29ed

相互关联的多个预测变量

当我们拥有多个预测变量时,我们就可以对预测变量间的相互关系进行检验了。我们可以独立开来指定需要分析的目标关联,如规定方程右边自变量为a + b + c + a:b + b:c+ a:b:c,或使用a * b * c的形式,让这个式子自己展开。我们还可以单独分析变量关联组合中的一些子集,如规定方程右边自变量为a + b c + a:c
下面的例子与上文中的基本一致,唯一的区别在于我们在这里用到的式子为vs ~ mpg * am,这与式子vs ~ mpg + am + mpg:am是等价的。

Logistic 回归丨数析学院_第13张图片
30ed

Logistic 回归丨数析学院_第14张图片
31ed


复制链接,通过电脑学习效果最佳:http://datacademy.io/lesson/69

Logistic 回归丨数析学院_第15张图片

你可能感兴趣的:(Logistic 回归丨数析学院)