使用Minitab进行逻辑回归分析
逻辑回归和最小平方回归都是研究一个响应变量和一或多个预测器之间的关系,它们之间的区别是逻辑回归技术用于类别响应变量,而线形回归技术用于连续响应变量。
Minitab提供了三种逻辑回归程序,你可以使用它们估计一或多个预测器与一个类别响应变量之间的关系,如下表所示:
变量类别 |
类别数目 |
特征 |
示例 |
二元 |
2 |
两水平 |
成功,失败;是,否 |
顺序 |
3或更多 |
水平是自然顺序关系 |
无,轻微,严重;精美,中等,粗糙 |
名义 |
3或更多 |
水平非自然顺序关系 |
绿,黑,红,黄;晴,雨,多云 |
逻辑回归和最小二乘法都在模型中进行参数估计以使模型最优,最小平方回归依据误差平方和最小的原理估计参数,而逻辑回归使用迭代重加权最小二乘(IRLS——Iterative Reweighted Least Squares)算法获取最大可能性来估计参数。
逻辑回归程序可以构造下列模型:
? 超过9个因子以及超过50个协变量(covariates)
? 交叉和嵌套因子
? 协变量彼此交叉或与因子交叉,或与within因子嵌套
模型的连续预测器与协变量或类别预测器类似(Model continuous predictors as covariates and categorical predictors as factors),下面是一些例子,其中A是因子,X是协变量。
模型项:
A X A*X |
协变量与因子交叉的全因子模型 |
A | X |
an alternative way to specify the previous model |
A X X*X |
协变量与自身交叉,出现平方项 |
A X(A) |
协变量嵌套因子 |
逻辑回归模型是Minitab中比一般线性回归(GLM)更一般的模型,任何可以使用GLM建模的情形也可以使用逻辑回归构建。为了更一般的讨论指定模型,参见“Specifying the Model Terms”与“Specifying Reduced Models”。在逻辑回归命令中,minitab假定任何模型中的任何变量都是协变量,除非它被指定为因子。与之相比,GLM假定模型的任何变量都是因子,除非它被指定为协变量。
逻辑回归模型是Minitab中比一般线性回归(GLM)更一般的模型,任何可以使用GLM命令建模的情形也可以使用逻辑回归命令构建,参见“Specifying the Model”。在逻辑回归命令中,minitab假定任何模型中的任何变量都是协变量,除非它被指定为因子,确保在主对话框中指定那些预测器是因子。在一般线性回归模型中,minitab假定模型的任何变量都是因子,除非它被指定为协变量。
模型约束
在minitab中逻辑回归模型与GLM模型一样有如下约束:
? 必须有足够的数据来估计模型的所有项,因此模型是满秩的。Minitab会自动判断你的模型是否满秩并显示相关信息。在大部分案例中,从模型中排除一些不重要的高阶交互项可以解决问题。
? 模型必须是分层的,在一个层次模型(hierarchical model)中,如果包括一个交互项,所有的低阶交互与组成交互项的主效应必须出现在模型中。
Minitab需要指定一个因子水平作为参考水平,这意味着估计系数的解释与此水平相关。Minitab基于数据类型指定参考水平
? 数值型因子,参考水平是数值最小的水平
? 日期/时间型因子,参考水平是日期/时间最早的因子
? 文本型因子,参考水平是依字母顺序最靠前的因子
你可以在选型子对话框中更改缺省参考水平。
如果你已经定义了文本型因子的顺序,上面的缺省规则不再适用。Minitab指定你定义顺序的第一个值作为参考水平。参见“Ordering Text Categories”。
逻辑回归为模型的每一个因子创建了一套设计变量,如果有k个水平,则有k-1个设计变量,参考水平被编码为0。下面是缺省编码表的两个例子:
A因子有4水平(1 2 3 4,参考水平是1) |
|||
|
A1 |
A2 |
A3 |
1 |
0 |
0 |
0 |
2 |
1 |
0 |
0 |
3 |
0 |
1 |
0 |
4 |
0 |
0 |
1 |
B因子有3水平(Temp Pressure Humidity,参考水平是Humidity) |
||
|
B1 |
B2 |
Humidity |
0 |
0 |
Pressure |
1 |
0 |
Temp |
0 |
1 |
Minitab需要指定一个响应值作为参考结果,Minitab基于数据类型定义参考结果:
? 数值型因子,参考结果是最大的数值
? 日期/时间型因子,参考结果是最近的日期/时间
? 文本型因子,参考结果是字母顺序最靠后的
你可以在选型子对话框中更改缺省的参考结果。
如果你定义了文本型因子的顺序,上述缺省规则不再适用。Minitab指定你定义顺序的最后一个值作为参考结果。参见“Ordering Text Categories”。
输入逻辑规格软件的数据表可以有两种格式:作为源数据(类别)或作为频率数据(collapsed)。对于二元逻辑回归,有另外三种数据表格式:as successes and trials, as successes and failures, or as failures and trials。下面是同样数据的不同格式:
作为raw data或作为frequency data输入的响应:
Raw Data:每个观测值一行
C1 |
C2 |
C3 |
C4 |
Response |
|
Factor |
Covariates |
0 |
|
1 |
12 |
1 |
|
1 |
12 |
1 |
|
1 |
12 |
. |
|
. |
. |
1 |
|
1 |
12 |
0 |
|
2 |
12 |
1 |
|
2 |
12 |
. |
|
. |
. |
1 |
|
2 |
12 |
. |
|
. |
. |
Frequency Data:每个因子与协变量的组合一行
C1 |
C2 |
C3 |
C4 |
Response |
Count |
Factor |
Covariates |
0 |
1 |
1 |
12 |
1 |
19 |
1 |
12 |
0 |
1 |
2 |
12 |
1 |
19 |
2 |
12 |
0 |
5 |
1 |
24 |
1 |
15 |
1 |
24 |
0 |
4 |
2 |
24 |
1 |
16 |
.2 |
24 |
0 |
7 |
1 |
50 |
1 |
13 |
.1 |
.50 |
0 |
8 |
2 |
50 |
1 |
12 |
2 |
50 |
0 |
11 |
1 |
125 |
1 |
2 |
1 |
125 |
0 |
9 |
2 |
125 |
1 |
11 |
2 |
125 |
0 |
19 |
1 |
200 |
1 |
1 |
1 |
200 |
0 |
18 |
2 |
200 |
1 |
2 |
2 |
200 |
作为successes,failures或者trials的数值输入的二元响应
每一个因子与协变量的组合作为一行输入
C1 |
C2 |
C3 |
C4 |
|
C1 |
C2 |
C3 |
C4 |
|
C1 |
C2 |
C3 |
C4 |
S |
T |
Factor |
Covar |
|
S |
F |
Factor |
Covar |
|
F |
T |
Factor |
Covar |
19 |
20 |
1 |
12 |
|
19 |
1 |
1 |
12 |
|
1 |
20 |
1 |
12 |
19 |
20 |
2 |
12 |
|
19 |
1 |
2 |
12 |
|
1 |
20 |
2 |
12 |
15 |
20 |
1 |
24 |
|
15 |
5 |
1 |
24 |
|
5 |
20 |
1 |
24 |
16 |
20 |
2 |
24 |
|
16 |
4 |
2 |
24 |
|
4 |
20 |
2 |
24 |
13 |
20 |
1 |
50 |
|
13 |
7 |
1 |
50 |
|
7 |
20 |
1 |
50 |
12 |
20 |
2 |
50 |
|
12 |
8 |
2 |
50 |
|
8 |
20 |
2 |
50 |
9 |
20 |
1 |
125 |
|
9 |
11 |
1 |
125 |
|
11 |
20 |
1 |
125 |
11 |
20 |
2 |
125 |
|
11 |
9 |
2 |
125 |
|
9 |
20 |
2 |
125 |
1 |
20 |
1 |
200 |
|
1 |
19 |
1 |
200 |
|
19 |
20 |
1 |
200 |
2 |
20 |
2 |
200 |
|
2 |
18 |
2 |
200 |
|
18 |
20 |
2 |
200 |
发现大回归系数时要小心
如果回归系数的绝对值很大,判断p-value时要当心。绝对回归系数很大,相应的标准差也很大,从而使你推断它们很重要。如果你有一个或多个因子(协变量)的大绝对回归系数,最好的验证是同时做包括这些项的逻辑回归以及不包括这些项的逻辑回归,并根据对数相似值(log-likelihood)的改变做推论。
如果你使用这种方式验证模型项的重要性,你的验证统计量为 -2* (简化模型的对数相似值-全模型的对数相似值)。检验 p-value 的方法为:选择 Calc > Probability Distributions > Chi-Square 。在自由度编辑框,输入全模型的模型自由度-简化模型的模型自由度,此处模型自由度是待估计系数的数目。选中 Input constant 单选框,输入上面的检验统计量,将结果储存在常量里,如 k1 ,然后使用 Calc > Calculator 计算 p-value = 1-k1 。