定量分析课程笔记(2)

写在前面

距离上次的笔记已经过了一个月了,下周三定量分析大作业的deadline要到了,现在作业还完全没动,不会写。打算通过这篇笔记回忆一下上课都讲了些什么。上篇讲到了BOX-COX变化,这篇从散点图开始。


散点图Scatter-Plot

散点图通过一个X-Y坐标轴来展现两个因素之间的相关性,是正相关、负相关、曲线相关还是不相关,相关的强度如何。另外,散点图也能帮助我们发现singular point(奇异点),来发现一些问题。

使用案例:在奥运会上,110米跨栏这个项目时不时会打破之前的世界纪录,产生新的最好成绩。那么,人类在110米跨栏这个项目的上的成绩与时间有什么样的关系?我们可以通过每届奥运会110米栏的最佳成绩,来画出以下的散点图。得出这样一个结论:人类110米栏的水平是越来越高的,并且从图形来看,近似线性关系。

同时我们也注意到,在1896第一届奥运会的时候,最好成绩是17.6S,使整个图形有些偏离线性关系,这就是一个奇异点。猜测的原因可能是:1、战争因素:人们没有很愿意参加。2、技术因素:由于是第一次奥运会,可能计时方法不太对,计时不准。

110米栏人类最佳成绩与年份间的关系

相关性系数:

相关性系数是用以反映变量之间相关关系密切程度的统计指标,为正代表正相关,负为负相关。计算方法是两个变量的协方差除以单体标准差的积。abs|r(x,y)|越接近1,说明相关性越强。越接近0说明相关性越弱。ps:相关性跟因果关系是两个概念,定量分析上跟多的是分析相关性,因果关系需要基于杨哥科学设计的随机试验。

相关性系数公式

minitab中的位置:图形->散点图;统计->基本量统计->相关


检验假设

这部分理解每周检验的核心即可,不需要完全理解其数学含义。前面所介绍的各种图,主要还是为了给人以直观的感受,去粗略的做一些判断,相对来讲还处在一种“主观判断”的模式上。假设检验是一种更为严谨、也更为客观的方式。假设检验的思想是:

任何基于“数据”所下的结论,都会有犯错的可能性。理论上,我们可以控制这个犯错可能性的大小,来保证结论可信。

也就是说,假设检验不能保证结论100%正确,但是能保证结论是可信的,至于什么是可信,就是假设检验重点描述的东西。任何一个结论都可能会范两类错误,第一类:拒真。第二类:不拒伪。

假设检验中的I类与II类错误

在很多生活场景中的假设被设计成第一类错误是比第二类错误严重,因为犯一类错误的期望(可能性)常常是小于二类错误的。想犯第一类错误,需要主动拒绝原假设,这样犯一类错误就是主动、有成本的。而犯二类错误相比一类错误成本是更低的,比如司法体制中的举证实际上就是基于所有公民都没罪假设的,如果想判刑,需要拿出证据来拒绝“无罪”的原假设。而实际上有罪的人,再没人指控的情况下,可能不需要证明自己是无罪的,没有拒绝原假设,犯了二类错误。相比于人人需要自证清白的方式,这种方式降低了错判的可能性的同时也增加了漏判的可能性。是大多数国家司法体制中的“无罪推定”原则。总结来说,在做假设检验的时候,应该把我们“倾向”的结论作为原假设。

假设检验一般分为4个步骤:1、定义原假设和备选假设。2、开发并计算检验统计量。3、寻找统计分布,计算拒绝域。4、决策。


Z检验(单样本)

Z检验(Z Test)是一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。首先做出原假设,比如u1=u2,即假定u1与u2无显著差异。然后计算Z值。最后拿计算出来的Z值推断发生概率P,得出假设的可信度。

Z值计算公式,X样本平均值,u已知总体平均值,S已知总体标准差,n样本容量

案例:还是接着上一篇,面包师是否偷工减料的问题。这次,我们随机抽查了25个PIE,并测量出了直径,同时我们已知对于PIE的直径总体来说,它的标准差是2。根据这些条件,我们首先做出原假设:面包店里的模具直径大于等于20cm,即u>=20。z = X样本均值-20.。根据上面z的计算的公式,可以得出z值为-0.985,假定I类错误的概率a=5%(通常为这个值),通过查标准正态分布表,我们可以查出,z0.05=-1.645;z>z0.05是不在拒绝域内的,因此无法拒绝原假设。面包师没有偷工减料。上面的计算过程也可以用minitab直接算出。p代表,如果要拒绝目前假设,那我们允许的I类错误概率是多少(前面要求是5%)。

科学家没有接受这个结论,他继续搜集了25次数据,进行了重复试验。计算过程我们就不展开了,这里直接说结论。其中FirstSample是前25次,ALL是全部50次。结果如下,第一次的p>5%,不能拒绝原假设。第二次p<5%,拒绝原假设。

Z-Test结果

minitab中位置:统计->基本量统计->Z检验;图形->概率分布图

置信区间

概念:100(1-a)%置信区间:以100(1-a)%覆盖参数真值的一个区间。简单点说,就是目标值在某个范围内的概率是100(1-a)%的意思,这个比较好理解。这里要说明的是,95%置信区间不等价于我们在上一部分所得出的拒绝域的范围,在正态分布中,置信区间把左右两侧的不可信的部分都刨除了,而上面Z检验部分,我们只考虑了单向的拒绝域。这是跟我们的假设有关的。

Z检验下的置信区间


变换假设后的Z-Test结果

T检验(单样本及双样本)

T检验和Z检验很类似,主要的区别在于,T检验主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布资料。例子如下:跟上面Z检验很类似。

T-Test单样本

双样本T检验公式

双样本案例:在上一篇介绍cox-box变化,人工降雨的案例中,我们最终通过cox-box变化得到了符合正态分布的数据。从直观上来看,人工降雨跟非人工降雨是有差距的。接下来我们接着这个案例,要回答的一个问题就是这个结论有多可信。首先我们假设这两组数据的差值是为0的。最终的结果如下,人工降雨的确是有效的。

双样本T检验公式
人工降雨案例中T检验双样本结果

minitab中位置:统计->基本量统计->T检验(双样本);

你可能感兴趣的:(定量分析课程笔记(2))