Remark:对心理学感兴趣,源自自我心理探索,决定学习中科院的儿童发展与教育心理学,倍感忐忑和压力,专业领域跨度较大,也很久不曾认真学习过某项课程。既然已经开始,就全力以赴吧。
授课老师:禤宇明 脑与认知科学国家重点实验室 中国科学院心理研究所
第二章 数据和图表
一、基础知识
– 变量、尺度、数据
二、 数据类型与分析方法
– 类别数据、顺序数据、等距数据、比例数据
三、 数据的来源
四、 数据的整理和统计图表
– 次数多边形、条形图、饼图、线图、直方图、散点图
一、 基础知识
1.1 变量、尺度、数据
例:身高:高、矮、中等个头; 180cm
变量variable:事物的某种特征,这种特征在不同个体之间有差异
尺度(量表)scale:变量的测量标准
数据data:测量的结果
——对同一个研究对象,用不同的尺度进行测量,也可以得到不同的结果(如姚明的官方身高为226cm,这是用米尺测量的结果,换算成英尺就是7 英尺6英寸;如果换成其他尺度测量得出的数据也就不同;也可以直接说“很高”)
变异varation: 研究对象中各观察个体之间的差异
例:线性函数y=ax+b(a和b均为常数)中,x变化,y会发生有规律的变化,但是在统计中会出现的情况通常是y=ax+b+e,e也是个变量,而且有可能是不可控的变量,也就是不同观察个体之间存在细微或不可控的差异。
1. 2 四种测量尺度
(1)类别尺度(Nominal Scale),也叫称名尺度或列名尺度
例子:—性别(男、女)、企业性质、职业、地区
— 检验(阴性、阳性)、血型
特性: — 也叫称名尺度或列名尺度;
— 只能按照事物的某种属性对其进行平行的分类或分组
— 只能区分事物是同类或不同类(=或≠)
— 通常计算每一类别中各元素或个体出现的额“次数”或“频率”来进行分析
例:一个班55名同学,女生25人,男生30人。
在这里,“性别”是变量,“男”和“女”是类别数据,25和30是计数数据。
(2)顺序尺度 (Ordinal Scale)
顺序数据也叫等级(rank )数据
例子:—绩效评定:优、良、中、及格、不及格
— 病情:轻、中、重
特性:— 对事物之间等级差别或顺序差别的一种测度
— 可以将事物分成不同的类别,还可以确定这些类别的优劣或顺序
— 该尺度具有“>或<”、“=和≠”的数学特性,但不可进行加减乘除运算
例:单位的级别有“科级”、“处级”、“副处级”等,如果一个人是“科级”,那么他所的“级别”变量的数据应该是“=科级”,或“<处级”,即“级别=科级”,或“级别<处级”。
(3)等距尺度(Interval Scale)
例子:温度:华氏℉(Fahrenheit)=℃*9/5+32;各种能力分数;智商等
特性: — 测量结果表现为数值,有相等的单位,但没有绝对零点
— 等距尺度具有类别尺度、顺序尺度的数学特性,结果只可加减,不可乘除
(4)比例尺度(Ratio Scale)
例子:— 长度、重量、收入、心率、百分制考试分数
特性:— 测量结果表现为数值,表明量的大小,有相等的单位,且有绝对零点
— 比例尺度具有类别尺度、顺序尺度和等距尺度的数学特征,结果可进行乘除运算
等距尺度与比例尺度的区别在于测量工具是否有绝对零点。对于温度而言,华氏和摄氏两种工具的零点不同,因此属于等距尺度。长度的测量,无论是使用英尺、米尺或其他,零点都是相同的,因此属于比例尺度。
思考题1:数学考试中得了80分,那么这个80分所对应额0分是绝对对的还是相对的呢?
—— 是相对零点,因为这个0并非绝对衡量点。如果试卷很难,这时候起点0会无形间被拔高,所以应该相应下调,这种情况下80分应该高于常规的80分。反之亦然。(P17—等距数据interval data)
二、数据类型和分析方法
2.1 数据的类型
1. 四分法:类别数据、顺序数据、等距数据、比例数据(P16)
2. 二分法:定性数据(Qualitative data):类别数据、顺序数据
定量数据(Quantitative data):等距数据、比例数据
有个从未管过自己孩子的统计学家,在一个星期六下午妻子要外出买东西时,勉强 答应照看一下四个年幼好动的孩子。当妻子回家时,交给妻子一张纸条,上面写着:“擦眼泪11次;系鞋带15次;给每个孩子吹玩 具气球各5次;每个气球的平均寿命10秒钟;警告孩子不要横穿马路26次;孩子坚持要穿马路26次;我还要再过这样的星期六0次。”
不同类型数据之间的变换
• 一般的变化方向: 数值型 → 等级(顺序)→类别
• 偶尔: 顺序 → 数值
2.2 数据类型与统计方法
三、统计数据的来源
3.1 直接来源
— 调查:普查、抽样调查
— 观察与实验
3.2 间接来源(二手数据)
— 不是自己亲自调查的,是别人的数据、公开出版或报道的数据:统计年鉴;报刊、杂志、图书、广播、电视传媒中的各种数据资料
四、数据的整理和统计图表
4.1 数据整理
1. 数据整理的概念:通过各种渠道搜集到统计数据之后,首先应对其进行加工整理,使之系统化、条理化,以符合分析的需要。
整理可以大大简化数据,更容易理解和分析。
2. 数据整理的步骤:数据的预处理——分类或分组——汇总
(1)数据的预处理:
▪ 数据的审核与筛选——检查每个样本点是否完整、准确;将不符合要求的数据删除,符合条件的选出来。
▪ 数据的排序(sort或order)——便于发现数据特征或趋势,也有助于检查错误
(2)分类或分组(grouping):根据研究对象的特征,将所得数据划分到各个组别中。
统计分组应注意:① 以研究对象的本质特性为基础;② 分类标注要明确清晰,能包括所有的数据
(3) 汇总
3. 数据整理的原则
▪ 对定性数据主要做分类整理
▪ 对定量数据主要做分组整理
4.2 类别数据的整理与图表展示
1. 整理
– 列出事物的类别,计算出每一类别的次数、频率或比例、比率
2. 图表展示
– 次数分布表: 列出不同类别所对应的次数或比例
次数分布 frequency distribution
3. 条形图bar graph、饼图pie graph
出生人口性别比:是活产男婴数与活产女婴数的比值,通常用女婴数量为100时所对应的男婴数来表示。正常情况下,出生性别比是由生物学规律决定的,保持在103~107之间。
4.3 顺序数据的整理与显示
1. 类别数据的整理和显示的内容都适用于顺序数据。除此之外顺序数据还可以计算累积次数,图形显示用到累积次数分布图
2. 累积次数(cumulative frequencies) 将各类别的次数逐级累加起来
– 向上累积:从类别顺序开始一方向最后一方累加频数
– 向下累积:从类别顺序最后一方向开始一方累加频数
3. 累积百分比(cumulative percentages)
4.4 定量数据的整理和图表显示
(1)数据的分组
– 定量数据包括等距数据和比例数据,在整理时通常要进行分组,然后再计算出各组中出现的次数。分组方法一般用组距分组法
(2) 图表显示
– 次数分布表
– 直方图、次数多边形图、累加直方图
4.4.1 组距分组的步骤
1. 求全距
– R=Max-Min
2. 定组数
– 组数过多过少都不合适
– 经验公式 组数 k=1.87(N-1)0.4, N为数据个数
3. 定组距
– 组距是一个组的上限与下限之差 ;距=(最大值-最小值)/组数
4. 写出组限
– 建议用精确组限
5. 求组中值
– 组中值=(精确上限+精确下限)÷2
6. 归类划记
7. 登记次数
4.4.2 定量数据的图表展示
直方图 histogram
次数多边形 frequency polygon
关于上面的frequency polygon,有几个问题:
1. f和p分别表示什么?f 表示对应分数出现的具体、绝对次数,p 表示比例,即相对次数;
2. 每一次的总人数N1和N2分别是多少?N=f/p,因此N1=1/0.01=100,N2=1/0.02=50
3. 纵坐标为什么用 p 而不是 f?只有用p,两条曲线下的面积才相等,面积都为1。f1f2,如果用f作为纵坐标,f1 所对应的曲线面积一定是大于f2的。
4. 哪一组成绩更好?第二组分数高:横坐标是分数,第二组整条曲线整体偏右。
累加直方图 cumulative histogram
频数分布图的形态
问题:假如上图表示的是考试成绩,那么试题较难的对应分布图是哪个?
回答:正偏态分布。因为题目较难,高分的人数会相对较少。
思考题1:在某小镇对下面变量进行调查,把变量与其直方图相匹配,并解释理由
① 父母双方均小于25岁的家庭中所有成员的身高
答案:B。涉及父母就会有小孩子,父母又分男性和女性,因此会出现三个峰值。成人身高差异相对较小,数据相对集中,而小孩子身高差异会比较大,数据相对分散,因此小孩身高对应的统计曲线会更扁平。
② 已婚夫妇的身高
答案: C。夫妇就涉及成年男性和成年女性,而男性和女性身高会不同,会有两个峰值。且成年人的身高相较孩子高,横坐标上的起点会更偏右。
③ 全体居民的身高
答案:D。
④ 所有小汽车car的高度
答案:A。A的峰值为该高度的车辆数目最多,且车的高度整体而言低于人的身高,因此可以推断A是有关车的统计。一般家用车的高度差别不会太大,A的最大值与最小值之间差距较小,也比较符合。
思考题2:1960和1980年,对美国妇女进行调查:“你有几个孩子?”结果如下所示。
– 变量是离散的还是连续的?答案:离散的。
– 画直方图(“9或更多可以”可以取为9)
– 从图中能得出什么结论?
提问:1. 蓝色和红色线分别代表什么性别?答案:蓝色是男生,红色是女生。理由:中国整体人口是男多女少;女性寿命长,因此高年龄段女性人数较多。
将上面的直方图逆时针旋转90度,然后将左边的图镜面到右边,得到的图跟下面的第二个图很像,即人口负增长: