量化金融-分类数据的检验

量化金融–假设检验3-分类数据的检验

分类型数据的常用检验方法

  • 量化金融--假设检验3-分类数据的检验
  • 分类型数据的介绍
  • 常用的检验方法
  • 卡方检验、Fisher检验方法的分析
    • 原理介绍
  • 卡方检验
  • Fisher检验

分类型数据的介绍

分类型数据也称为频数数据。在数据样本中,我们称落入某一个特定分组的样本数量为频数;当分组的维度只有1时,我们称这样的数据为单因素频数表;当分组的维度为2时,我们称这样的数据为列联表数据。

常用的检验方法

用于分类型数据的方法有很多:卡方检验、Fisher检验、McNermr检验、Cochran’s Q检验,本文将重点讲述卡方检验与Fisher检验两种方法。

卡方检验、Fisher检验方法的分析

原理介绍

卡方检验与Fisher检验都是分析频数表中绝对频数与期望频数的偏差程度,对于它们而言,检验的两个假设分别为
0 : 绝对频数与期望频数没有差别 ↔ 1 : 绝对频数与期望频数存在差别 0:绝对频数与期望频数没有差别↔1:绝对频数与期望频数存在差别 H0:绝对频数与期望频数没有差别H1:绝对频数与期望频数存在差别
那么,绝对频数和期望频数是什么呢?

对于一个给定的频数表而言,我们称其中的频数为绝对频数,记为 _ oi , 为频数表中格子的序号(或者行列位置)。在上面的单因素频数表中,骰子点数1的绝对频数为 1 = 18 _1=18 o1=18 ;在双因素列联表中,男性左利手的绝对频数为 11 = 43 _{11}=43 o11=43

而期望频数则根据我们进行卡方/Fisher检验的用途变化而变化,记为 _ ei 。例如,在列联表独立性检验中,每个格子的期望频数就是这个格子在表格中的“期望值”(我们后面会解释这个概念);在特定分布的拟合优度检验中,期望频数就是特定分布在每个取值区间下的频数。
如果绝对频数与期望频数的差值越小,则两者越接近,我们越不能拒绝原假设。基于此,卡方检验构造了下述检验统计量:
s t a t i s t i c s = ∑ i ( o i − e i ) 2 e i statistics=\sum_i{\frac{\left( o_i-e_i \right) ^2}{e_i}} statistics=iei(oiei)2
而该统计量近似服从卡方分布(在大样本下):
s t a t i s t i c s ∼ χ f 2 statistics\sim \chi _{f}^{2} statisticsχf2
其中, f f f为自由度。对于有n个格子的单因素频数表而言, f = n − 1 f=n-1 f=n1;对于 r × c r\times c r×c的双因素列联表而言,$f=\left( r-1 \right) \left( c-1 \right) $

p值计算规则为:
p v a l u e = P ( χ f 2 > T e s t    s t a t i s t i c s ) pvalue=P\left( \chi _{f}^{2}>Test\,\,statistics \right) pvalue=P(χf2>Teststatistics)
我们注意到,卡方检验中的检验统计量是近似服从而非精确服从卡方分布,只有在大样本下(绝对频数与期望频数都很大)的情况下,卡方检验的精确度才高,而在小样本下,卡方检验的效用不及Fisher检验。相比于卡方检验这种“近似的”检验,Fisher检验是一种精确的检验,但是它的计算要比卡方检验复杂。不过幸运的是,在计算机面前这并不是问题。
两者的适用范围如下:

卡方检验

卡方检验适用于单因素频数表双因素频数表中的 2 × 2 2\times 2 2×2 r × c r\times c r×c列联表

单因素频数表

  1. 在单因素频数表中,每一类的绝对频数 o i o_i oi不能小于5。

2 × 2 2\times 2 2×2列联表
2. 样本总量 ∑ o i > 40 \sum{o_i}>40 oi>40,且所有期望频数 e i > 5 e_i>5 ei>5,可使用Pearson卡方检验
3. 样本总量 ∑ o i > 40 \sum{o_i}>40 oi>40,但存在期望频数 1 < e i < 5 11<ei<5,可使用连续型校正的卡方检验
4. 若样本总量 ∑ o i < 40 \sum{o_i}<40 oi<40,或存在期望频数 1 < e i 11<ei,建议使用Fisher检验

r × c r\times c r×c列联表
5. 表中期望频数 e i < 5 e_i<5 ei<5的格子不能超过1/5。
6. 不得出现期望频数 1 < e i 11<ei的情况。

Fisher检验

Fisher检验仅仅适用于双因素频数表中的 2 × 2 2\times 2 2×2列联表

Fisher检验在 2 × 2 2\times 2 2×2列联表中适用范围内很广,弥补了卡方检验的缺点。
总结一下,卡方检验在多种频数表中都可以应用,但要注意绝对频数与理论频数是否过低;Fisher检验只适用于 2 × 2 2\times 2 2×2列联表,但是在该表中的精确度与适用性都优于卡方检验。因此在 2 × 2 2\times 2 2×2列联表中,我推荐大家使用Fisher检验;在其他表格中使用卡方检验。

你可能感兴趣的:(金融)