《现代心理与教育统计学》 第二章 数据和图表

Remark:对心理学感兴趣,源自自我心理探索,决定学习中科院的儿童发展与教育心理学,倍感忐忑和压力,专业领域跨度较大,也很久不曾认真学习过某项课程。既然已经开始,就全力以赴吧。

  授课老师:禤宇明    脑与认知科学国家重点实验室  中国科学院心理研究所

第二章  数据和图表

一、基础知识

      – 变量、尺度、数据

二、  数据类型与分析方法

      – 类别数据、顺序数据、等距数据、比例数据

三、 数据的来源

四、  数据的整理和统计图表

        – 次数多边形、条形图、饼图、线图、直方图、散点图

一、 基础知识

1.1 变量、尺度、数据

  例:身高:高、矮、中等个头; 180cm

 变量variable:事物的某种特征,这种特征在不同个体之间有差异

尺度(量表)scale:变量的测量标准

数据data:测量的结果

——对同一个研究对象,用不同的尺度进行测量,也可以得到不同的结果(如姚明的官方身高为226cm,这是用米尺测量的结果,换算成英尺就是7 英尺6英寸;如果换成其他尺度测量得出的数据也就不同;也可以直接说“很高”)

变异varation: 研究对象中各观察个体之间的差异

例:线性函数y=ax+b(a和b均为常数)中,x变化,y会发生有规律的变化,但是在统计中会出现的情况通常是y=ax+b+e,e也是个变量,而且有可能是不可控的变量,也就是不同观察个体之间存在细微或不可控的差异。

1. 2 四种测量尺度

(1)类别尺度(Nominal Scale),也叫称名尺度或列名尺度 

例子:—性别(男、女)、企业性质、职业、地区

           — 检验(阴性、阳性)、血型

特性: — 也叫称名尺度或列名尺度;

           — 只能按照事物的某种属性对其进行平行的分类或分组

           —  只能区分事物是同类或不同类(=或≠)

            — 通常计算每一类别中各元素或个体出现的额“次数”或“频率”来进行分析

例:一个班55名同学,女生25人,男生30人。

    在这里,“性别”是变量,“男”和“女”是类别数据,25和30是计数数据。

(2)顺序尺度 (Ordinal Scale)

顺序数据也叫等级(rank )数据

例子:—绩效评定:优、良、中、及格、不及格

          — 病情:轻、中、重

特性:— 对事物之间等级差别或顺序差别的一种测度

           — 可以将事物分成不同的类别,还可以确定这些类别的优劣或顺序

           — 该尺度具有“>或<”、“=和≠”的数学特性,但不可进行加减乘除运算

例:单位的级别有“科级”、“处级”、“副处级”等,如果一个人是“科级”,那么他所的“级别”变量的数据应该是“=科级”,或“<处级”,即“级别=科级”,或“级别<处级”。

(3)等距尺度(Interval Scale)

例子:温度:华氏℉(Fahrenheit)=℃*9/5+32;各种能力分数;智商等

特性: — 测量结果表现为数值,有相等的单位,但没有绝对零点

            — 等距尺度具有类别尺度、顺序尺度的数学特性,结果只可加减,不可乘除

(4)比例尺度(Ratio Scale)

例子:— 长度、重量、收入、心率、百分制考试分数

特性:— 测量结果表现为数值,表明量的大小,有相等的单位,且有绝对零点

            — 比例尺度具有类别尺度、顺序尺度和等距尺度的数学特征,结果可进行乘除运算

等距尺度与比例尺度的区别在于测量工具是否有绝对零点。对于温度而言,华氏和摄氏两种工具的零点不同,因此属于等距尺度。长度的测量,无论是使用英尺、米尺或其他,零点都是相同的,因此属于比例尺度。

思考题1:数学考试中得了80分,那么这个80分所对应额0分是绝对对的还是相对的呢?

               —— 是相对零点,因为这个0并非绝对衡量点。如果试卷很难,这时候起点0会无形间被拔高,所以应该相应下调,这种情况下80分应该高于常规的80分。反之亦然。(P17—等距数据interval data)

二、数据类型和分析方法

2.1 数据的类型

1. 四分法:类别数据、顺序数据、等距数据、比例数据(P16)

2. 二分法:定性数据(Qualitative data):类别数据、顺序数据

                  定量数据(Quantitative data):等距数据、比例数据

统计数据类型

有个从未管过自己孩子的统计学家,在一个星期六下午妻子要外出买东西时,勉强 答应照看一下四个年幼好动的孩子。当妻子回家时,交给妻子一张纸条,上面写着:“擦眼泪11次;系鞋带15次;给每个孩子吹玩 具气球各5次;每个气球的平均寿命10秒钟;警告孩子不要横穿马路26次;孩子坚持要穿马路26次;我还要再过这样的星期六0次。”

不同类型数据之间的变换

•  一般的变化方向: 数值型 → 等级(顺序)类别

•  偶尔: 顺序 → 数值

2.2 数据类型与统计方法

数据类型与统计方法

三、统计数据的来源

3.1  直接来源

  — 调查:普查、抽样调查

  — 观察与实验

3.2  间接来源(二手数据)

— 不是自己亲自调查的,是别人的数据、公开出版或报道的数据:统计年鉴;报刊、杂志、图书、广播、电视传媒中的各种数据资料

四、数据的整理和统计图表

4.1  数据整理

1. 数据整理的概念:通过各种渠道搜集到统计数据之后,首先应对其进行加工整理,使之系统化、条理化,以符合分析的需要。

整理可以大大简化数据,更容易理解和分析。

2. 数据整理的步骤:数据的预处理——分类或分组——汇总

  (1)数据的预处理

         ▪  数据的审核与筛选——检查每个样本点是否完整、准确;将不符合要求的数据删除,符合条件的选出来。

         ▪  数据的排序(sort或order)——便于发现数据特征或趋势,也有助于检查错误

  (2)分类或分组(grouping):根据研究对象的特征,将所得数据划分到各个组别中。

      统计分组应注意:① 以研究对象的本质特性为基础;② 分类标注要明确清晰,能包括所有的数据

  (3) 汇总

3. 数据整理的原则

     ▪ 对定性数据主要做分类整理

    ▪  对定量数据主要做分组整理

4.2 类别数据的整理与图表展示

   1.  整理

         –    列出事物的类别,计算出每一类别的次数、频率或比例、比率

    2.  图表展示

         –    次数分布表: 列出不同类别所对应的次数或比例

次数分布 frequency distribution

次数分布表

    3.  条形图bar graph、饼图pie graph

条形图对于数量多少的对比一目了然。(这里是网民的受教育程度,网民并非全体国民,而且当时上网的主要是大学生偏多,因此网民的受教育程度偏高。)


饼图(选择最合适的图而非最花哨的图,在最合适的图中选择最喜欢的)       





出生人口性别比:是活产男婴数与活产女婴数的比值,通常用女婴数量为100时所对应的男婴数来表示。正常情况下,出生性别比是由生物学规律决定的,保持在103~107之间。


4.3 顺序数据的整理与显示

1. 类别数据的整理和显示的内容都适用于顺序数据。除此之外顺序数据还可以计算累积次数,图形显示用到累积次数分布图

2. 累积次数(cumulative frequencies) 将各类别的次数逐级累加起来

      – 向上累积:从类别顺序开始一方向最后一方累加频数

      – 向下累积:从类别顺序最后一方向开始一方累加频数

3. 累积百分比(cumulative percentages)

4.4 定量数据的整理和图表显示

(1)数据的分组

  – 定量数据包括等距数据和比例数据,在整理时通常要进行分组,然后再计算出各组中出现的次数。分组方法一般用组距分组法

(2) 图表显示

 – 次数分布表

 – 直方图、次数多边形图、累加直方图

4.4.1 组距分组的步骤

1. 求全距

       – R=Max-Min

2. 定组数

       –  组数过多过少都不合适

      – 经验公式 组数 k=1.87(N-1)0.4, N为数据个数

3. 定组距

    – 组距是一个组的上限与下限之差 ;距=(最大值-最小值)/组数

4. 写出组限

   – 建议用精确组限

5. 求组中值

   – 组中值=(精确上限+精确下限)÷2

6. 归类划记

7. 登记次数

4.4.2 定量数据的图表展示

直方图 histogram

直方图跟正态分布图十分接近,即实际数据和理论数据差异不大;矩形的面积大小即表示着数据的多少;在正态分布曲线下,那么区间曲线下的面积即为数据的多少。整个曲线下的面积为100%,即1。找出上方直方图中每个矩形上面一条边的中点,然后用直线连接起来,就形成了次数多边形

次数多边形 frequency polygon

这是一个离散数据的次数多边形

关于上面的frequency polygon,有几个问题:

1. f和p分别表示什么?f 表示对应分数出现的具体、绝对次数,p 表示比例,即相对次数;

2. 每一次的总人数N1和N2分别是多少?N=f/p,因此N1=1/0.01=100,N2=1/0.02=50

3. 纵坐标为什么用 p 而不是 f?只有用p,两条曲线下的面积才相等,面积都为1。f1f2,如果用f作为纵坐标,f1 所对应的曲线面积一定是大于f2的。

4. 哪一组成绩更好?第二组分数高:横坐标是分数,第二组整条曲线整体偏右。

累加直方图 cumulative histogram

频数分布图的形态

三个单峰分布图

问题:假如上图表示的是考试成绩,那么试题较难的对应分布图是哪个?

          回答:正偏态分布。因为题目较难,高分的人数会相对较少。


思考题1:在某小镇对下面变量进行调查,把变量与其直方图相匹配,并解释理由

① 父母双方均小于25岁的家庭中所有成员的身高 

答案:B。涉及父母就会有小孩子,父母又分男性和女性,因此会出现三个峰值。成人身高差异相对较小,数据相对集中,而小孩子身高差异会比较大,数据相对分散,因此小孩身高对应的统计曲线会更扁平。

② 已婚夫妇的身高

答案: C。夫妇就涉及成年男性和成年女性,而男性和女性身高会不同,会有两个峰值。且成年人的身高相较孩子高,横坐标上的起点会更偏右。

③ 全体居民的身高

答案:D。

④ 所有小汽车car的高度

答案:A。A的峰值为该高度的车辆数目最多,且车的高度整体而言低于人的身高,因此可以推断A是有关车的统计。一般家用车的高度差别不会太大,A的最大值与最小值之间差距较小,也比较符合。



思考题2:1960和1980年,对美国妇女进行调查:“你有几个孩子?”结果如下所示。

– 变量是离散的还是连续的?答案:离散的。

– 画直方图(“9或更多可以”可以取为9)

– 从图中能得出什么结论?


直方图:除了两个孩子的家庭人数增多,其他孩子数目的家庭数目都有所下降,说明人们的生育愿望降低。


2000年全国人口普查结果

提问:1. 蓝色和红色线分别代表什么性别?答案:蓝色是男生,红色是女生。理由:中国整体人口是男多女少;女性寿命长,因此高年龄段女性人数较多。

将上面的直方图逆时针旋转90度,然后将左边的图镜面到右边,得到的图跟下面的第二个图很像,即人口负增长:

第一个图形是人口零增长,第二个图体现人口负增长,第三个图体现人口正增长。

你可能感兴趣的:(《现代心理与教育统计学》 第二章 数据和图表)