定量分析课程笔记

写在前面

周末在清华MEM连上了2天定量分析课程,感觉受益颇深。定量分析是有一套系统化的、严谨的方法去挖掘数据的内在关系、并通过严谨的检验方法来印证最初的假设、最终发现新的现实规律来指导后续的工作。也就是一个从数据(事实)中获取信息(知识)的过程。


MINITAB

一个统计分析软件,使我们做数据定量分析的主要工具,可以借助它来帮助我们描述数据、探索数据的关联、最终检验(确定)这种关联。有30天试用期。


箱线图Box-Plot

箱线图从上到下的几个点分别为:max(最大值)、1st quarter(四分位数)、median(中位数)、3rd quarter(四分位数)、min(最小值),可能还会包含工具帮我们识别出来的singular point(奇异点)。图形有点类似K线,但是表示的意义不一样。如果按照箱线图的规则去定义K线或许能让投资者了解到交易价格的分布,而不是仅仅关注价格。

使用场景:给定了几个不同品牌地毯耐用度(平均寿命)的测量数据,如何去判断哪种比较耐用呢?箱线图可以帮助我们直观的感受几组数据,比单单从平均值来判断更加全面

定量分析课程笔记_第1张图片
4种地毯使用寿命的箱线图

minitab中的位置:图形->箱线图


直方图Histogram&正态分布

直方图很早就一直在接触,能够反映样本值在不同区间的分布情况。我们可以把它用在判别给定数据是否符合正态分布上。现实生活中很多东西都是符合正态分布的,结合直方图,我们通过观察可以识别数据中的一些问题。

使用场景:课上有这样一个例子,一个科学家怀疑一家面包店偷工减料,这家面包店声称自己用20直径的模具做面包。科学家采集了一定量的数据,发现平均值明显小于20,于是找到了面包师,面包师不服,要求重新取样来统计,第二次的平均值超过了20。

分别把两次数据的制作成直方图来看,发现第一次的数据基本符合正态分布 ,而第二次的数据像是正态分布的右半段。推测:面包师很可能对第二次的数据做了手脚,把直径大于20的面包单独挑了出来。

定量分析课程笔记_第2张图片
前后两次面包直径频率直方图

minitab中的位置:图形->直方图


正态性检验

除了直接从直方图中观察数据是否符合正态分布,我们也可以借助minitab的正态性检验来做。

使用场景:人工降雨是否有效?随机选取了52片云彩,26次实施人工降雨、26次不实施。分别记录降雨量,用箱线图和直方图来看,可以大概看出人工降雨会有一些优势。

定量分析课程笔记_第3张图片
人工降雨与非人工降雨的比较
定量分析课程笔记_第4张图片
非人工降雨
定量分析课程笔记_第5张图片
人工降雨

为了更加深入发掘降雨量的规律,我们先对两组数据分别进行正态性检验

定量分析课程笔记_第6张图片
非人工降雨正态性检验
定量分析课程笔记_第7张图片
人工降雨正态性检验

图上可以看到,两组数据正态分布的假设p值都<.005,假设不可信。两组数据都不符合正态分布。

minitab中的位置:统计->基本统计量->正态性检验


Box-Cox变换

Box-Cox变换是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。Box-Cox变换,变换之后,可以一定程度上减小不可观测的误差和预测变量的相关性。我的理解是这样的:真实世界中的很多误差(残差)都是遵循正态概率分布的,但是我们在观测计量某种数据的时候是在用人类文明发展过程中创造出来的单位(尺度)来度量,最终数据按照人所方便理解的形式被测量出来,但这两者其实有某种数学上的联系。Box-Cox变换就是试图找到这种联系。

定量分析课程笔记_第8张图片
Box-Cox转换公式

还是上面人工降雨的例子,Box-Cox分析图如下。可以看出95%置信区间在-0.08到0.17之间,这里可以用0取整。代入上面公式,可以用log来做变换。

定量分析课程笔记_第9张图片
人工降雨案例Box-Cox图

经过变换后P值较大,无法拒绝两组数据符合正态分布的假设。

定量分析课程笔记_第10张图片
ln(Unseeded_Clouds)正态性检验
定量分析课程笔记_第11张图片
ln(Seeded_Clouds)正态性检验

这个时候我们再用箱线图去比较两组数据,会更加的清晰和直观。

定量分析课程笔记_第12张图片
Box-Cox变换后的箱线图

minitab中的位置:统计->控制图->Box-Cox变换。


结语

今天就先写这些,因果关系的论证、假设检验以及回归分析与预测的一些方法,后面再总结。

你可能感兴趣的:(定量分析课程笔记)