R语言-差异显著性分析

1.背景介绍

  • 方差分析是一种分析调查或试验结果是否有差异的统计分析方法,也就是检验各组别间是否有差异。本文我们就一起来梳理下方差分析的分析流程。以及实现方法。
  • R语言进行单因素方差分析或者非参数检验,也是非常方便的,简单快捷,仅仅几行代码,即可快速进行组间两两比较。

2.基础知识

1.数据类型

  • 方差分析用于分析定类数据与定量数据之间的关系情况,可以比较2组或多组数据的差异。分析前首先应根据数据类型判断使用的方法是否正确。
  • 如果X是定类数据,Y是定类数据,则应该使用卡方分析。
  • 如果X是定类数据,Y是定量数据,且X组别仅为两组,则应该使用T检验。
X数据类型 X组别 Y 分析方法
定类 2组或者多组 定量 方差
定类 仅仅两组 定量 t检验
定类 2组或者多组 定类 卡方

2.方差分析的类型

  • 方差分析按照自变量个数的不同,可以分为单因素方差分析、双因素方差分析、以及多因素方差分析。
  • 单因素方差分析,可以比较一个自变量(比如品牌);而双因素方差可以比较两个自变量(品牌和销售地区);多因素方差可比较三个及以上的自变量。
  • 单因素方差分析在问卷研究中常用于分析个人背景信息对核心研究变量的影响(比如不同性别人群对工作满意度是否有显著差异)。
  • 同时也可用于对聚类分析效果的判断。在得到聚类类别之后,通过方差分析去对比不同类别的差异,如果全部呈现出显著性差异,以及研究人员结合专业知识可以对类别进行命名时,则说明聚类效果较好。
  • 而双因素和多因素方差分析,可以研究多个自变量对因变量Y的交互影响。通常只有在实验研究中才会使用,一般的问卷数据很少使用。
  • 本文将主要针对单因素方差分析说明。

3.正态性检验

  • 方差分析要求Y项满足需要正态性,对于正态性检验在前几期推文中提到过,请点击这里。R中有SW检验,KS检验,QQ图什么的等。
不满足正态性
  • 如果出现数据不满足正态性的情况:
    ①可以进行对数处理:使用log函数或者scale函数进行标准化处理,使数据呈现出正态性。但转换后的数据分析结果不好解释,建议考虑选择其他方法。
    ②使用非参数检验:如果没有呈现出正态性特质,可使用非参数检验进行分析。
    ③直接使用方差分析:参数检验的检验效能高于非参数检验,比如方差分析为参数检验,所以很多时候即使数据不满足正态性要求也使用方差分析。

4.方差齐性检验

  • 方差分析前一般需要对数据进行方差齐性检验。
不满足方差齐性
  • 理论上讲,单因素方差分析应该首先满足方差齐性,但在实际研究过程中,较多数据出现方差不齐现象,可以将分类数据X进行重新组合,或对Y取对数等处理。
  • 如果仍然不满足方差齐性,可使用非参数检验。
  • 另外,如果研究的分类数据为两类,可以考虑使用独立样本T检验。

5.事后多重比较

  • 单因素方差分析如果呈现出显著性,说明不同组别之间确实存在显著差异,但有时我们更想知道 - 具体有哪些组是有差异的。
  • 此时则可以使用事后多重比较(事后检验),对两两组别进行对比。
  • 如果方差分析显示没有差异性,则不需要进行事后多重比较。

三级标题

四级标题

五级标题
六级标题

你可能感兴趣的:(r语言,开发语言)