统计数据类型

数据是指不同的信息片段。你可能认为数据只是表格上的简单数字,但是数据的形式多种多样。从文本到视频到电子表格,从数据库到图片再到音频视频,而且肯定还漏了很多其他的形式。

存在的数据类型有:


统计数据类型_第1张图片
数据类型

换个角度看

要分解我们的数据类型,主要有两大块:
数值分类
数值进一步分为连续离散
分类数据可以分为定序定类

数值与分类

其中一些可能有点棘手 —— 举个例子,邮政编码是一个数字,但它们并非数值变量。如果我们将两个邮政编码加在一起,并不会从得到的新值中获得任何有用的信息。因此,这是一个分类变量。

身高、年龄、书中的页数和年收入采用的值我们可以进行加、减和执行其他运算,来获得有用的见解。因此,这些是数值数据。

性别、字母成绩等级、早餐类型、婚姻状态和邮政编码可以视为一组物品或个人的标签。因此,它们是分类数据。

连续和离散

要区分我们的数据是连续还是离散的,要看我们是否能将数据分割成更小的单元。想想时间 —— 我们可以用年、月、日、小时、分钟或秒来衡量一个事件,甚至是在秒级,我们知道仍然有更小的单位可以用来衡量时间。因此,我们知道此数据类型为连续的。身高、年龄和收入都是连续数据的例子。或者,我们知道书中的页数、咖啡店外的狗数量或院子里的树为离散数据。我们可不想将狗一分为二。

定序与定类

在看定类变量时,我们发现性别婚姻状态邮政编码早餐食品定类变量,这种类型的数据没有相关的顺序排列。无论你早餐吃麦片粥、吐司、鸡蛋还是只喝咖啡,它并没有相关的排序。

相反,字母成绩等级调查评级作为定序数据具有关联的排序。如果获得 A,它高于 A-。A- 的排名高于 B+,以此类推……定序变量在评级量表上很常见。在很多情况下,我们将这些定序变量变为数字,这样可以更容易地进行分析。

理解数据类型也可以帮助我们创建可视化来解释数据

你可能感兴趣的:(统计数据类型)