多元回归分析中的分类变量(笔记)

两个水平

如果分类变量只有两个水平(例如性别,男和女),我们只需要定义一个虚拟变量就可以了,用0表示男,用1表示女。

超过两个水平

当一个分类变量超过两个水平时,我们必须在定义虚拟变量和解释虚拟变量两方面谨慎从事。重点是要牢记:在多元回归分析中,如果一个分类变量有k个水平,那么需要在多元回归分析中定义k-1个虚拟变量

解释

对于只有两个水平的分类变量很好理解,那么“在多元回归分析中,如果一个分类变量有k个水平,那么需要在多元回归分析中定义k-1个虚拟变量”该怎么解释呢?

对于我们一开始很容易想到的问题,为什么有多个水平的分类变量不能也按两个水平的方法,用一个虚拟变量表示呢,例如学历,只需要定义一个变量x,分别取值0,1,2,表示小学、中学、大学即可,似乎没什么不妥。

但是分类变量不同于数值变量,它在方程中的值是我们任意指定的,没有大小的含义,只是为了区分标识,含义更接近编程语言中的true和false,不能用它的值进行计算。

你可能感兴趣的:(统计学,算法)