数据分析之参数检验与非参数检验

1、参数检验和非参数检验的区别

  1. 定义不同:
  • 参数检验:假定数据服从某分布(一般为正态分布),通过样本参数的估计量(x±s)对总体参数(μ)进行检验,比如t检验、u检验、方差分析。
  • 非参数检验:不需要假定总体分布形式,直接对数据的分布进行检验。由于不涉及总体分布的参数,故名「非参数」检验。比如,卡方检验。
  1. 衡量值不同
  • 参数检验的集中趋势的衡量为均值
  • 非参数检验为中位数。
  1. 需要的信息不同
  • 参数检验要利用到总体的信息(总体分布、总体的一些参数特征如方差),以总体分布和样本信息对总体参数作出推断;
  • 非参数检验不需要利用总体的信息(总体分布、总体的一些参数特征如方差),以样本信息对总体分布作出推断。
  1. 适用范围不同
  • 参数检验只适用于变量,而非参数检验同时适用于变量和属性。
  • 参数检验只能用于等距数据和比例数据,非参数检验主要用于记数数据。也可用于等距和比例数据,但精确性就会降低。
  1. 测量两个定量变量之间的相关程度不同
  • 参数检验用Pearson相关系数
  • 非参数检验用Spearman秩相关。
  1. 假设不同
  • 参数检验是针对参数做的假设,非参数检验是针对总体分布情况做的假设,这个是区分参数检验和非参数检验的一个重要特征。
  • 非参数检验往往不假定总体的分布类型,直接对总体的分布的某种假设(例如如称性、分位数大小等等假设)作统计检验。拟合优度检验也是非参数检验。除了拟合优度检验外,还有许多常用的非参数检验。最常见的非参数检验统计量有3类:计数统计量、秩统计量、符号秩统计量。
  1. 适用条件不同
  • 正态分布用参数检验
  • 非正态分布用非参数检验

简而言之,若可以假定样本数据来自具有特定分布的总体,则使用参数检验。如果不能对数据集作出必要的假设,则使用非参数检验。

2、参数检验和非参数检验的优缺点

  1. 参数检验:
  • 优点:能充分利用提供的信息,统计分析的效率较高;
  • 缺点:对样本所对应的总体分布有比较严格的要求,这样就限制了它的适用范围,如等级数据、非确定数据(>50mg)不能使用参数检验,而且要求资料的分布型已知和总体方差相等。
  1. 非参数检验:
  • 优点:
    (1)应用范围广、简便、易掌握;
    (2)对总体分布未做出任何假定,因此适用于任何分布的资料,如严重偏态分布、分布不明的资料、等级资料或末端无确定数值的资料;
    (3)易于收集资料、统计分析比较简便
  • 缺点:不直接分析原始测量值,从而有可能会降低它的检验效率;若对符合参数检验条件的资料用非参数检验,则检验效率低于参数检验。

如无效假设是正确的,非参数法与参数法一样好,但如果无效假设是错误的,则非参数检验效果较差,如需检验出同样大小的差异的差异往往需要较多的资料。另一点是非参数检验统计量是近似服从某一部分,检验的界值表也是有近似的(如配对秩和检验)因此其结果有一定近似

参考链接1:http://blog.sina.com.cn/s/blog_4909aecd0102v49k.html
参考链接2:https://www.med66.com/web/gonggongweishenglilunzhishi/zf1505271926.shtml

3、非参数检验适用场景

(1)等级顺序资料。
(2)偏态资料。当观察资料呈偏态或极度偏态分布而有未经变量变换,或虽经变量变换但仍未达到正态或近似正态分布时,宜用非参数检验。
(3)未知分布型资料
(4)要比较的各组资料变异度相差较大,方差不齐,且不能变换达到齐性。
(5)初步分析。有些医学资料由于统计工作量过大,可采用非参数统计方法进行初步分析,挑选其中有意义者再进一步分析(包括参数统计内容)
(6)对于一些特殊情况,如从几个总体所获得的数据,往往难以对其原有总体分布作出估计,在这种情况下可

4、非参数检验的常见方法

  1. Wilcoxon Signed Ranks test:也称配对符号秩检验,适用于连续型资料,用来检验配对资料的差值是否来自于中位数为0的总体,也可推断总体中位数是否等于某个指定值,该方法利用配对资料差值大小的信息,检验效率高于符号检验。
  1. Signtest:也称差数秩检验,根据配对资料差值正负号检验其效果有无差异,由于检验效能较低,当配对设计资料不满足非参数检验时可考虑使用。
  1. McNemar test:在卡方检验时学习过,该方法适用于计数资料,指标变量为二分类,可用来检验配对设计资料处理前后的结果是否存在差异或者配对组之间的频率有无差异。
  1. Marginal Homogeneity test:McNemar检验的扩展,适用于指标变量为多分类的有序或无序资料,即平方表格资料(R×R列联表资料)。

数据分析之参数检验与非参数检验_第1张图片
数据分析之参数检验与非参数检验_第2张图片
图片链接:https://blog.csdn.net/weixin_39771987/article/details/109906242

5.1、参数检验:检验回归(regression)、比较(comparison)或相关(correlation)三种关系

5.1.1 回归系数检验

回归系数检验用于检验/测试样本数据的变量之间因果关系,即自变量对因变量的影响是否显著。这种方法通常可以寻找到一个或多个连续变量对另一个变量的影响。三种回归系数检验方法使用条件及实例如下:
数据分析之参数检验与非参数检验_第3张图片

5.1.2 比较检验

比较检验是用来寻找群体平均数之间的差异。这种方法可以用来检验/测试定性(分类)变量对其他特征均值的影响。

在比较两组的平均值(例如男性和女性的平均身高)时,一般使用T检验。当比较两个以上组(例如儿童、青少年和成人的平均身高)的平均值时,使用方差分析和方差分析检验。

四种比较检验方法使用条件及实例如下:
数据分析之参数检验与非参数检验_第4张图片

5.1.3 相关性检验

相关性检验(Correlation Test)是对变量之间是否相关以及相关的程度如何所进行的统计检验,主要用来检查/测试两个变量是否相关,而不假设因果关系。

相关性检验一般是对两个或多个具备相关性的变量进行分析,从而衡量变量的相关密切程度。相关性的变量之间需要存在一定的联系或者概率才可以进行相关性检验。

相关性检验方法使用条件及实例如下:
数据分析之参数检验与非参数检验_第5张图片

5.2、非参数检验

非参数检验(Nonparametric tests) 针对的是总体分布不易确定,或分布呈明显偏态、方差不齐又无适当的变量转换方法以满足参数检验条件的样本数据。

需要注意的是:非参数检验的是比较分布而不是比较参数。非参数检验的方法是五花八门,名字也是千奇百怪,但是,这些方法有它们的共性。上面介绍了,就是因为对总体的分布形态不清楚或总体分布不是正态分布,所以无法用参数检验来推断总体的集中趋势和离散程度的参数。非参数检验不会对样本数据做太多的假设,当进行一个或多个常见的统计假设时,那么非参数检验是有用的。然而,从统计学上来讲,非参数检验的推论结果并不像参数检验那么有力。
数据分析之参数检验与非参数检验_第6张图片
三种不同的分布,右(左)偏态/负(正)偏态适合用非参数检验,正态分布适合用参数检验

非参数检验方法使用条件及替代的参数检验方法如下:
数据分析之参数检验与非参数检验_第7张图片
参考链接:统计分析到底该用参数检验?还是非参数检验?

你可能感兴趣的:(数据分析,机器学习)