分类变量与数值变量相关性分析

一、分类&分类·相关性分析

分类变量分析方法的选取与数据状态有较大相关性,计数据样本量为n,两变量交叉单元格数据为T。

  1. 卡方检验
    卡方检验科用于对二维列联表的行变量和列变量的相关性检验
    · 当所有T≥5并且总样本量n≥40,用Pearson卡方进行检验
    · 当T<5但T≥1,并且n≥40,用连续性校正的卡方进行检验
    「R语言」>chisq.test(x1,x2)
  2. Fisher精确检验
    Fisher精确检验
    · T<1或n<40,则用Fisher’s检验
    「R语言」> fisher.test(x1,x2)
    · R中fisher.test()可以在任意行列数大于等于2的二维列联表中使用,但不能用于2×2的列联表
  3. Cochran-Mantel-Haenszel检验
    Cochran-Mantel-Haenszel检验的原假设为:两个名义变量(x1,x2)在第三个变量(x3)的每一层中都是条件独立的
    「R语言」> mantelaen.test(x1,x2,x3)

二、数值&数值·相关性分析

  1. Pearson相关系数
    Pearson相关系数度量了两个连续变量之间的线性相关程度
    「R语言」> cor( x1,x2,method=‘pearson’)

  2. Spearman相关系数
    Spearman等级相关系数可以衡量非线性关系变量间的相关系数,是一种非参数的统计方法,可以用于定序变量或不满足正态分布假设的等间隔数据;
    「R语言」> cor( x1,x2,method=‘spearman’)

  3. KKendall秩相关系数
    Kendall秩相关系数也是一种非参数的等级相关度量,类似于Spearman等级相关系数。
    「R语言」> cor( x1,x2,method=‘kendall’)

  • 「R」stata包:chisq.test() fisher.test() mantelhaen.test() cor()
    -cor() 函数最重要的参数为 X,use,method。
    ---- X即指定分析的变量;
    ---- use指定缺失值处理的方法:all.obs则假设不存在缺失数据,遇到缺失数据时将会报错;everything遇到缺失数据时,结果将返回missing;complete.obs进行行删除;pairwise.complete.obs则成对删除
    ---- method指明计算相关系数的方法:pearson、spearman、kendall

三、数值*分类·相关性分析

你可能感兴趣的:(统计分析,stata,R)