统计学基础

统计数据的类型

***1.分类变量Catrgorical Variable ***

其变量值是定性的,表现为互不相容的类别或属性。
分类自变量的哑变量(dummy variables)
在多重回归、Logistic回归模型中,自变量可以是连续型变量(interval variables),也可以是二项分类变量,和多分类变量。
为了便于解释,对二项分类变量(如好坏、死活、发病不发病等)一般按0、1编码,一般0表示阴性或较轻情况,而1表示阳性或较严重情况。
多分类变量又可分为有序(等级)或无序(也叫名义),
如果是有序(ordinal)分类变量,一般可按对因变量影响由小到大的顺序编码为1、2、3、...,或按数据的自然大小,将它当作连续型变量处理。
如果是无序的(nomial)分类变量,则需要采用哑变量(dummy variables)进行编码,下面以职业(J)为例加予以说明。 假如职业分类为工、农、商、学、兵5类,则可定义比分类数少1个,即5-1=4个哑变量

2.离散型数据(Discrete data):

代表数量是可以被数出来的,它可能是有限的,也可能是无限的。比如掷硬币100次人头朝上的次数(次数范围为0到100,是有限的);又如,掷硬币直到有100次是人头朝上的次数(次数范围为100到无穷大,是无限的)。

3.连续数据(Continuous data):

代表测量的结果是不能被数出来的,它只能被区间所描述。
比如桶里有20L水,随机倒掉一部分,剩余的水量为[0,20]区间内的某一个值,9.4L,9.41L,9.416789L等等,任何在[0,20]区间内的值都有可能。

4.分类数据(Categorical data):

代表了被描述对象的性质,比如一个人的性别、婚姻状况、家乡等等, Categorical data 可以用Numerical data来表示,比如说描述性别时,1代表男,2代表女,但是这些数据并没有数学意义,你不能拿他做运算。Categorical data也叫作qualitative data或是Yes/No data。

参考:知乎,百度

你可能感兴趣的:(统计学基础)