2018-10-15

第一节 分布 统计表 统计图

一、分布

分布(频次分布)概念:一个概念或变量,它的各个情况出现的次数或频次。

变量取值要注意的问题:完备、互斥

多选题怎样满足互斥?

多选项二分法(对每一个选项都判断是否选中)

多选项分类法(挑选有限的几个——计算频次)

加权平均法(被调查者对选项排序,打分)

统计图和统计表都是为了表达变量的分布的【分布】

二、统计表

统计表概念:用表格形式来表示变量的分布

注意:百分比统计表要注明统计总数

对于定距变量:要区分它是连续型还是离散型

离散型:与定序变量的制表方法相同——变量按照取值的大小排列

连续型:由于一一列举会分类多并且每一类的频次少,所以采用组距式统计表

分组要注意的问题?
  1. 组数:组数太多会增加偶然因素(p30)
  2. 等距分组域非等距分组
  • 低收入的月薪差一千生活水平会差很多,高收入的月薪差一千,生活水平不会差很多,所以低收入组距小一些
  1. 分组的精度(将标明组界转化为真实组界,+-0.5)

三、统计图

比统计表直观

不及统计表精确

圆瓣图****************************定类************************************

表示变量取值在总体中占的比例

无法体现出变量取值的排列

条形图**************************定类、定序********************************

用长条的高度来表示资料类别的频次或百分比【高度】

长条的宽度没有意义,画成等宽

对于定类变量,条形是离散的;对于定序变量,条形可以是离散的,也可以是紧挨着的

直方图****************************定距*************************************

直方图是由紧挨着的长条组成的

直方图的宽度是有意义的

长条的面积表示频次或相对频次【面积】

长条的高度为频次密度或相对频次密度

这是因为连续型定距变量可采用非等距分组【非等距分组】

例子:26-27岁结婚的频次密度比40-50岁结婚的频次密度大(通过条形高度可以直观看出)

折线图*****************************定距************************************

用直线连接直方图中条形顶端的中点即可得到

离散型用离散的那个值就可以了;连续型应该用组中心值

四、累计图和累计表

了解小于某一变量值或大于某一变量值总共的频次是多少

比较个体在总体中的位置

例子:考80分,超过了95%的人还是50%的人

五、分布图分析

峰点研究

双峰的话,说明数据的实体不属于同一类型

幼儿园既有阿姨,又有幼儿,比较身高是没有意义的

对称研究

正态分布:单峰、对称

左偏态(负向偏态)——左边尾巴拖得比较长

右偏态(正向偏态)——右边尾巴拖得比较长

除此之外,还有U形曲线和J形曲线

U:人口死亡率和年龄 J:婚姻次数与人数

你可能感兴趣的:(2018-10-15)