SPSS逻辑回归分类变量(哑变量)设置

首先直接记录结论:

1、如果是二分类变量不用设为哑变量,因为结果是一样的。
2、如果是三分类及以上的有序分类变量尽量不设哑变量,可以节省自由度,准确度会更高一些。
3、三分类及以上的无序变量必须设为哑变量,否则会影响结果。

什么是哑变量,什么时候需要?

简单定义

哑变量(Dummy Variable),又称为虚拟变量、虚设变量或名义变量,从名称上看就知道,它是人为虚设的变量,通常取值为0或1,来反映某个变量的不同属性。对于有n个分类属性的自变量,通常需要选取1个分类作为参照,因此可以产生n-1个哑变量。

什么时候用?

个人通俗理解,就是说某个分类变量的取值,处理过程中通常会编码成1-5之类的数字。在模型构建过程中会被直接当做数值进行处理,有大小之分,而不是当做平行的类别,显然这是不合理的。哑变量就是用来处理这一问题的。

举例说明

比如有个变量,名为“身份类型”,分为学生、农民、工人、公务员、其他。共5类,以1、2、3、4、5分别表示。此时可以以“其他”作为参照,另外四个取值设置成4个哑变量,假设为X1-X4,如下所示:
X1=1,学生;X1=0,非学生;
X2=1,农民;X2=0,非农民;
X3=1,工人;X3=0,非工人;
X4=1,公务员;X4=0,非公务员;

你可能感兴趣的:(逻辑回归,分类)