R语言与统计-3:卡方检验


R语言与统计-1:t检验与秩和检验
R语言与统计-2:方差分析


t检验和方差分析主要针对连续型变量,卡方检验主要针对分类变量。

1. 拟合优度检验

拟合优度检验是用卡方统计量进行统计显著性检验的重要内容之一。它是依据总体分布状况,计算出分类变量中各类别的期望频数,与分布的观察频数进行对比,判断期望频数与观察频数是否有显著差异,从而达到从分类变量进行分析的目的。

简单来说,就是检验样本数据分布是否与已知总体的分布是一致的

#生成数据集
men <- c(11,120,60,45)
women <- c(20,102,39,30)
df <- as.data.frame(rbind(men,women))
colnames(df) <- c('AB','O','A','B')
df
#       AB   O  A  B
# men   11 120 60 45
# women 20 102 39 30
  • chisel.test函数
    检验男性组中,四种血型的分布是否一样
chisq.test(men)

#   Chi-squared test for given
#   probabilities

# data:  men
# X-squared = 105.46, df = 3, p-value <
# 2.2e-16

##p值远远小于0.05,男性组中四种血型的分布不一样

如若已知人群中四种血型的占比为0.1 0.5 0.2 0.2,看该组男性的血型分布是否与人群的一致。参数p:传入已知总体的参数情况。

chisq.test(men,p=c(0.1,0.5,0.2,0.2))

#   Chi-squared test for given
#   probabilities

# data:  men
# X-squared = 10.335, df = 3, p-value =
# 0.01592

##结果显示不一致

2. 卡方齐性检验和卡方独立性检验

两者写法一样,解释的方法不一样。
卡方齐性检验:比较不同的分类水平下,各个类型的比例是否一致。

chisq.test(df)

#   Pearson's Chi-squared test

# data:  df
# X-squared = 6.8607, df = 3, p-value =
# 0.07647

##男女不同血型的分布是一致的。即:血型的分布与性别无关。

卡方独立性检验:

chisq.test(df)

#   Pearson's Chi-squared test

# data:  df
# X-squared = 6.8607, df = 3, p-value =
# 0.07647

##意思是行变量(性别)和列变量(血型)之前没有关联

3. CMH检验 分层检验 针对不同的分层数据来进行

对于行变量为无序分类,列变量为有序分类的数据,由于不能忽略等级关系,也只能使用CMH检验,而不能使用皮尔森卡方检验。

# 生成一个数据集
Rabbits <- array(c(0,0,6,5,
                  3,0,3,6,
                  6,2,1,0,
                  5,6,1,0,
                  2,5,0,0),
                dim=c(2,2,5),
                dimnames = list(
                  Delay=c('None','1.5h'),
                  Response=c('Cured','Died'),
                  Penicillin.level=c('1/8','1/4','1/2','1','4')))
Rabbits
# , , Penicillin.level = 1/8

#       Response
# Delay  Cured Died
#   None     0    6
#   1.5h     0    5

# , , Penicillin.level = 1/4

#       Response
# Delay  Cured Died
#   None     3    3
#   1.5h     0    6

# , , Penicillin.level = 1/2

#       Response
# Delay  Cured Died
#   None     6    1
#   1.5h     2    0

# , , Penicillin.level = 1

#       Response
# Delay  Cured Died
#   None     5    1
#   1.5h     6    0

# , , Penicillin.level = 4

#       Response
# Delay  Cured Died
#   None     2    0
#   1.5h     5    0

使用CMH检验查看盘尼西林的水平和是否推迟注射对兔子的结局是否有影响。

mantelhaen.test()函数

mantelhaen.test(Rabbits)

#   Mantel-Haenszel chi-squared test with
#   continuity correction

# data:  Rabbits
# Mantel-Haenszel X-squared = 0.074445, df = 1,
# p-value = 0.785
# alternative hypothesis: true common odds ratio is not equal to 1
# 95 percent confidence interval:
#   0.3111294 13.8643579
# sample estimates:
# common odds ratio 
#         2.076923 

p值>0.05,无统计学意义。将盘尼西林分为5层水平后,立即注射和推迟1.5h注射的OR值是2.076923

4. 有序分类的卡方检验

mantelhaen.test()函数

Satisfaction <- 
  as.table(array(c(1,2,0,0,3,3,1,2,
                   11,17,8,4,2,3,5,2,
                   1,0,0,0,1,3,0,1,
                   2,5,7,9,1,1,3,6),
                 dim=c(4,4,2),
                 dimnames=list(Income=c('<5000','5000-15000','15000-25000','>25000'),
                               'Job Satisfaction'=c('V_D','L_S','M_S','V_S'),
                               Gender=c('Female','Male'))))
Satisfaction
# , , Gender = Female

#              Job Satisfaction
# Income        V_D L_S M_S V_S
#  <5000         1   3  11   2
#  5000-15000    2   3  17   3
#  15000-25000   0   1   8   5
#  >25000        0   2   4   2

#, , Gender = Male

#              Job Satisfaction
# Income        V_D L_S M_S V_S
#  <5000         1   1   2   1
#  5000-15000    0   3   5   1
#  15000-25000   0   0   7   3
#  >25000        0   1   9   6

income是一个有序分类变量。结果显示工资水平对工作满意度没有显著的统计学关系。

5. 配对四格表的卡方检验(常见的病例对照研究等)

paired <- as.table(matrix(c(157,24,69,18),nrow = 2,dimnames = list(case=c('A','B'),control=c('A','B'))))
paired
#     control
# case   A   B
#    A 157  69
#    B  24  18

mcnemar.test()函数

mcnemar.test(paired)

#   McNemar's Chi-squared test with continuity
#   correction

# data:  paired
# McNemar's chi-squared = 20.817, df = 1,
# p-value = 5.053e-06

###p<0.05, case和control之间存在相关性

你可能感兴趣的:(R语言与统计-3:卡方检验)