【写作马拉松】整理的过程

参加写作马拉松感觉就是在进行整理工作。

写的内容是关于统计学中零假设检验、贝叶斯学派和似然函数之间的关系,关于零假设检验就涉及到了关于样本、方差齐性、一类错误和二类错误、统计检验力、置信区间、效应量;贝叶斯学派就涉及到了先验概率、后验概率、样本信息;似然函数就涉及到了正态分布、模型之间的数据比较;

对这些概念举例,关于测谎、机器学习、人格测验的一些具体内容;然后继续具体下去,如何控制变量,会出现的问题,如何应对内容等等内容;

事先搭好一个框架,然后根据框架往里面填,类似于选择好房间的置物位置;把衣服全部拿出来;然后分大类,分小类,一个个填好;

自己知道整理的内在逻辑,看的赏心悦目,心里舒坦,这就是我参加完半马的感受。

就是这样。



截取一段内容,凑够1500字:


为什么要使用统计推断来减少对自己对愚弄呢?

首先,愚弄自己指的是什么?

对于存在的事实我们拒绝接受,对于不存在的事实我们反而会相信他存在。

前者的情况可以举什么例子呢?

比如别人指出我们的缺点,英语口语能力不行,但是指出者反而觉得自我感觉良好;比如一个实验中明明没有显著性差异,但是因为和我们依据的理论有悖,我们无法接受;比如站岗时,明明没有敌人,但是因为有一些噪音和自己内心标准的影响,我们往往会认为实际上是有人。对于存在的事实我们拒绝接受,同样也是统计学中的假阴性事件。比如明明实验处理是有效果的,但是我们却因为实验设计,样本原因以及统计方法的不恰当,导致无法检测出来。这也就犯了二类错误。

后者的情况可以举什么例子呢?

对于不存在的事实我们反而会相信他存在?明明没有治疗作用的保健品我们却会相信;明明没有直接证明孩子是杀父凶手,我们却认为他有罪,这在电影《十二怒汉》中有明显的表达;明明不合理的辩论,我们却因为辩论者本身使用的技巧(背景相干谬误、人身攻击)而被说服;明明没有任何作用的绿豆,我们却因为相信林光常的话而去相信。说到这,这也在另一个方面提出了一个新的视角,就是人是如何被说服的呢?被所谓的“眼见为实”,被情感的煽动而影响?被信息不对称而导致无法认清事实真相。

有人畏惧看到真相,但是无论真相如何,看到事实才能更把问题更好地解决,否则一开始就跑错了方向;

而不存在的事实我们认为出现了这是虚惊一场,这是误报,这也是统计学上所说的一类错误;

因为人本身的灵活,惰性以及环境的影响,让我们思

考一个问题,我们如何减少对自己的愚弄呢?

这门课程的老师为我们介绍了统计推断所指出的三条路,当然我相信这只是一个视角,如果还需要补充,我觉得实际生活中,我们可能会形成对一个人的稳定的相信程度,然后借鉴这个人的观点去对我们的认识进行修正。这似乎也是贝叶斯学派的核心思想,难道没有其他路了吗?或者这存在这非常巨大的哲学背景?我可能需要多次反复学习之后,会有进一步的收获。

那么不愚弄自己,首先我们应该会面对的是一个模糊的问题,不太了解的领域,那么首先就是要去澄清这个问题,这个问题的提出是我们该做的。关于这个问题,Neyman-Pearson主要完善了这方面的工作。

在具体的统计过程中,我们的流程是:

1/明确虚无假设和备择假设的具体;

2/然后选择相应假设的统计指标,设置我们可以相信这一假设时统计指标的范围,比如数据出现多大程度时我们可以接受这个假设的证据?比如数据所呈现的分布其均值与另一个假设的均值有什么差异,关于这一点我们可以之后再谈。

3/那么接下来就是选择样本和收集数据的过程;关于样本和数据类型可以进行如下思考内容

1、多少组样本

1.1 单样本,如果知道总体数据,可进行单样本t检验

1.2 双样本,可以进行t检验

1.3 多样本,可以进行单因素方差分析

1.3.1 如果是多个因素的多样本,那么就需要进行两因素、三因素方差分析过程。

2、每组样本是否相同

这里的每组样本是否相同,主要是考察两点:

2.1 方差齐性,如果方差不齐,就需要分析方差不齐的原因,如果是因为数据的异常或缺失,那么统计学上会有其他方法进行相关的纠正,比如说数据转换,根据标准差或人为设定的一个范围剔除异常值,比如运用样本均数代替缺失值以及误差值,或者是截尾均值

2.2 每组样本数量是否相同,比如一个实验有三个组,第一个组10个人,第二个组8个人,第三个组5个人,那么就需要考虑调和均数的方法。这里本身也有很大的一块可以补充

3、每组样本之间是独立的还是配对的

牵扯到是使用独立样本t检验,还是配对样本t检验,是使用重复测量方差分析还是单因素方差分析,当然应该还要根据数据的类型进行考虑,如果是称名数据或是顺序数据,那么就需要考虑非参数统计的方法;

4、既然谈到了数据类型,那么就在此也补充这个内容

4.1 分为四种数据类型:

称名数据——数据只是提供了一个物品的名称,并没有提供与其他物品的关系,比如我叫“陈东濠”,并没有提供我和父母之间的关系,无法进行更多推断;比如这场马拉松比赛中,我们知道谁谁谁完成了半马,谁谁谁完成了全马,但仅仅只是知道而已,不能进行下一步的推测,当然如果你说你是超能力,天赋异禀能够看到名字就知道一个人的前世今生,那我们就不在这个领域谈。这个领域主要还是基于事实数据来进行推理的过程。但是稍微做下延伸,你会惊讶人的这种命名方式是和神奇的,我们如何从混乱的视觉图像中看出一个个有着界限的物体,并且对它们进行命名。这里面涉及到的是知觉和语言之间的关系。有意思的现象就在于颜色词的命名,因为我觉得领域基础而又深刻,所以还是停下来收集了下相关的内容给大家展示“世界上还没有发现任何一种完全没有色彩语码的语言。Berlin和Kay通过跨文化比较的方式考差了98种语言的基本颜色词,发现有11种颜色词构成了人类语言种色彩语码系统的基本范畴,并且有严格的等级性:黑白红黄绿蓝>粉/橙/灰/紫”这里面涉及的内容包括基本颜色范畴,范畴中的焦点颜色词所代表的经典颜色,和后面所派生出的颜色词可以作为人类意识研究的侧面进行深入研究。其中Lakoff由此还提出了具身现象与语言认知的关系,这里面还牵扯到了沃尔夫和萨培尔提出的“语言决定论”,这一观点认为语言决定思维,一个人的思维形式是受他所没有意识到的语言形式的那些不可抗拒的规律支配的。语言对于思维的认识,毛总的导师不知道是不是也主要想解决这个理论问题呢?

顺序数据——比如在这场马拉松比赛中,我们可以知道谁先完成了比赛,那么我们可以通过这个数据获取了一下简单信息,比如说我在这个比赛中排名第13,那么我就知道了你跟其他人的先后顺序,如果再加上称名数据,那么我就可以说,你比谁谁谁差,你可以向谁谁谁学习,这种前后顺序应该也是根植在人类乃至生物的认知基础里面的,你怎么知道谁在前谁在后,你可能说用手表可以知道前后,你可以说空间位置前后,谁遮住谁,谁比谁小可以知道前后,但是关于前后的这个意识其实很复杂,就问你一个问题,如何让一个机器人在多变的外界环境中稳定的得出谁前谁后?你知道这个有多难吗?因为他涉及到一个将外界视觉信息进行分析的过程,这个过程是我们意识不到的。甚至在研究早期,有人认为是天赋的!但是随着心理学的研究进展,则发展出了三个主流观点来进行研究,

一个是心理物理学派,认为外界生态提供了足够的物理线索,我们只要读取这些物理线索我们就可以判断前后了;

一个是推断思路,也可以认为是信息加工心理学学派的观点,认为知觉这个过程,存在着一系列的信息加工过程,视觉感觉层面的信息输入,之后知觉的实现,这个过程可能包含选择,编码,加工,提取的过程,之后存储在语音环路上,以及记忆存储区,因为这种稳定的前后知觉是如此的稳定,它们是否储存在一个长时记忆里内?这其实隐含着一个机器比喻。

一个是生理学的视角,认为是外界的刺激和内在的生理器官有着映射关系,类似的情况是,某年的诺贝尔生理学奖获得者在猫的大脑细胞中发现了对方向、大小、动作方位敏感的细胞;

好像还有一个另外的思路,就是通过电脑建模的方式来与实际人类实验数据进行比较,这也是检验的理论方式之一,通过各个理论思路去建模然后拟合之后,看下那个理论的建模数据和实际结果匹配。

等距数据——如果可以量化每个参加马拉松人的分数,那么这就是属于等距数据。等距数据已经可以进入科学研究的神圣殿堂了。这个似乎进入了心理学的领域,相比与前一个刺激强度,你主观上感觉两倍于之前的刺激强度,心理物理法在这个领域有了大量稳定和可重复的研究内容。他的研究内容关注的是我们是否有着稳定的与外界物理信息的对应关系。这让我又想到了知觉编码领域的关于集群编码的现象,为什么人们是只见森林而不见数目的呢?

等比数据——如果能够设定绝对零度那么就可以认为是进入了科学的神圣殿堂,这个所谓的绝对零度是基于物理的参考数据。比如说绝对零度的物理标识

由此还对应了相关的测量工具,顺序数据所对应的测量工具好像没有,因为牵扯到工具之后就需要有稳定的结构,否则这个工具本身的说服力是很差的,也就是说信度较差。

4. 根据样本数据计算拒绝区域

5.计算统计检验量;我们需要计算抽样样本数据的均值,标准差等等描述性统计指标,在这个过程中,我们可能还要谈到数据的缺失值和异常值问题,这些我们在此只是起个头,后续会进行补充。

6/利用相关的集中趋势指标和差异分布指标进行推断统计,其中选择什么样的统计推断指标,就需要考虑实验设计的具体情况,也可以根据我们搜集到的数据类型进行考虑:

你可能感兴趣的:(【写作马拉松】整理的过程)