Remark:对心理学感兴趣,源自自我心理探索,决定学习中科院的儿童发展与教育心理学,倍感忐忑和压力,专业领域跨度较大,也很久不曾认真学习过某项课程。既然已经开始,就全力以赴吧。
授课老师:禤宇明 脑与认知科学国家重点实验室 中国科学院心理研究所
第一章 绪论
一、什么是统计学
二、 为什么需要统计学
三、统计学的分类:描述统计和推论统计
四、现代统计理论的发展
五、预备知识:变量、连续变量和离散变量、符号
注意事项
♣ 统计是一门不易理解的“数学”
~ 人为的规定
~ 抽象的术语
~ 繁多的公式
♣ 如何学习
~ 听课、看书、做题、多思考
~ 上课带纸、笔、计算器(机)
~ 尽可能地在工作中应用学到的知识
一、 什么是统计
1. 统计是任何方面的专家们用以支持其论点的一大堆数据
2. 统计师计算用以代表和解释一堆数据的量数(如平均数与标准差)的方法
3. 统计是依少量数据(样本)所提供的资料来估计预测某研究对象(总体)的方法
4. 统计为不确定状况下制定决策提供方法的科学
统计学分类:大致分为理论统计学(theoretical statistics)和应用统计学(applied statistics)两部分。
理论统计学:侧重统计理论与方法的数理证明。
应用统计学:侧重统计理论与方法在各个实践领域中国的应用。
心理与教育统计学属于应用统计学科。
二、为什么需要统计学
2.1 数据不能说明一切,但是是某种事实(数据可以作为证据或论点)
In God we trust。 Others bring data.
例如: 绩效评定、升级留级
2.2 我们需要概率来理解抽奖、保险、医学试验、工业质量控制、天气预报、运动创伤、基因和现代物理
2.3 在面对不确定情况下,统计是一种能够帮助我们做出聪明决策的科学方法
▶ 趣味统计问题
① 父亲高儿子一定高
② 赌徒的谬论:
甲:我准备买车了! 乙:哦,你升职了吗?
甲:没有,但你知道这些年我一直在买彩票。乙:是的,每次你都买。
甲:但我每次都没有中奖。 乙:那你为什么觉得你这次会中奖呢?
甲:以前都没中过,这次该轮到我了!
③ 仓促的结论:英格兰的Smith到美国的俄亥俄州某大学读研究生。他从来没有到过美洲,很多东西对他来说都很新奇。 有一天,他从学校礼堂回宿舍时看到了两只松鼠,令人惊奇的是两只松鼠都是白色的。晚上email的时候,他把这个发现告诉了他的父母,他兴奋地写道:“…美国的松鼠都是白色的…
④ 出租车问题:国外某地的出租车较少,一位统计学者在该地的某街角等候出租车,眼看来了几部出租车都载客而过,这位统计学者开始怀疑这个城市到底有几部出租车,以致于不够用。于是他开始记下载客而过的出租车车号,依次如下:405, 280, 73, 440, 179。接着来了一部空车,载走了统计学者。 假如该城市出租车的编号是从1号开始连续编排下来,而且空的出租车走在城里做随机性的环绕,那么,你若是这位统计学者,你将如何 从上述记录的资料来推测该城市共有几部出租车?
⑤ 估计野生动物的存量:在报纸杂志上,我们经常看到某种动物已濒临灭绝边缘的报导。科学家如何知道那些野生动物的数量呢?例如:鲸漫游在占全球表面积约 2/3强的海洋内,而且大部分的时间又都潜伏在水底,我们如何来估计各类鲸的存量呢?
▶ 常见统计问题
①. 本批产品是否是合格品?
② 吸烟与得癌症有关吗?
③ 张三会于下届选举中获胜吗?
三、统计的分类:描述统计和推论统计
3.1 描述统计:我们的兴趣只限于手头现有的数据,而不准备把结果用来推论总体,称为描述统计。
例:每年来京旅游的人数,平均每人在京停留的日 数,平均每人每天在京的花费,十年内那一年创最高记录
3.2 推论统计: 任何对数据(即样本)的处理导致预测或推论总体的统计称为推论统计
例:根据历年数据预测来年可能来京旅游的人数
四、现代统计理论发展的四个阶段
4.1. 高尔顿和皮尔逊
① 1899年,高尔顿(Sir Francis Galton, 1822~1911)出版《Nature Inheritance》一书
● 所有知识都基于统计基础
● 引入中数、创立相关概念、把成绩评分和正态分布联系起来
② 卡尔.皮尔逊(Karl Pearson, 1857~1936)
● 众数、标准差、相关系数
4.2. 费雪
1915年,费雪(Ronald Aylmer Fisher, 1890~1962)发表关于样本相关系数统计量的精确分布的论文
● 小样本统计、估计量的判定准则、最大似然估计
● 抽样技巧和随机程序
● 《Statistical Methodsfor Research Workers》和《Design of Experiments》分别于1925年和1935年出版,对于统计有重大的影响
费氏提到有一位女士声称她能分辨出她的茶中牛奶是在泡茶之前或之后加入的,而后他描述一种实验计划来证明或否定该女士的声称
(据说费雪是个早熟的孩子,在很小的时候就精通如球面三角之类的艰深学问。他曾对物理科学感兴趣,1912年自剑桥大学得到天文学的学士学位。)
4.3 聂曼和伊根·皮尔逊
▶ 第三个时期以1928年聂曼(Jerzy Neyman)和伊根·皮尔逊(Egon Pearson, 卡尔·皮尔逊之子)的共同论文 多篇的发表为开端
● 介绍和强调诸如假设检验中的第二种错误,检验的power和置信区间之类的观念
4.3 华德
▶ 1939年,华德(Abraham Wald, 1902~ 1950) 发表关于顺序抽样 (sequential sampling) 的论文
● 最大的贡献之一是他介绍一种对统计问题的新看法(1945),那就是以对局的观点去处统计方面的问题,这就是今日所称的统计决策理论 (statistical decision theory)
● 统计被视为以自然为对手的对局的艺术
五、预备知识
5.1 几个概念和术语
(1) 随机变量:在一定的条件下观测结果不确定
随机变量的分类: ①称名变量、顺序变量、等距变量、比率变量;
② 因变量和自变量:Y =f (X)
③ 连续变量和离散变量: 连续变量在任何两个取值之间都还可以细分;离散变量在任何两个取值之间只有有限个可能的取值
(2) 总体、个体和样本
总体(population):指具有某种特征的一类事物的全体,又称母体
个体(unit、individual):构成总体的每个基本单元
样本(sample):从总体中抽取的一部分个体,即总体的一个子集
(3) 参数和统计量:
参数(parameter),又称总体参数,是描述一个总体情况的统计指标。
统计量(statistics),也叫样本统计量、特征值:样本的特征值
5.2 符号
变量:大写英文字母,如X、Y等
变量variable的取值(即观测值observation):小写英文字母,如x、y等
例如:18周岁中国人的身高:X
170,180,172,168,…
x1, x2, x3, x4,...