数据处理之卡方检验

题型以及解法:

1.描绘图形,概率密度分布,集中趋势等, ——绘图函数

2.不同基因型在不同人群中是否存在显著差异 ——卡方独立性检验

3.不同变量之间的关联程度   ——多元线性回归分析

4.因变量为二分类变量时(是否,10),想要知道各个自变量影响大小,所占权重多少——Logistic回归分析

5.拟合探索自变量因变量关系 ——局部多项式回归

6.不知道总体分布,或不为正态分布时 ——非参数统计,Wilcoxon符号秩和检验(配对变量):Kruskal-Wallis H检验(多组变量时):

 

 

基础概率密度分布问题

 

dbinom(x, size, prob)#该函数给出了每个点的概率密度分布。

pbinom(x, size, prob)#该函数给出事件的累积概率,它用于表示概率的单个值。

x - 是数字的向量,size -是试验的次数,prob -是每次试验成功的概率

 

 

中心极限定理的验证:

 

对下面三种图进行对比分析和讨论。

#随机抽样 1

png(file = "gds4794-hist-sample1.png")

hist(a[sample(a, 100)], freq = F, breaks = 100)

dev.off()

#重复抽样 100

png(file = "gds4794-hist-sample100.png")

x <- replicate(100, sample(a, size=100, replace = FALSE))

hist(x, freq = F, breaks = 100)

dev.off()

#重复抽样 100, 绘制均值分布图

png(file = "gds4794-hist-sample100-mean.png")

x<-replicate(100, mean(a[sample(a, 100)]))

hist(x, freq = F, breaks = 100)

dev.off()

 

 

计算各种统计指标并绘制统计图:

 

x1<-min(a,na.rm=TRUE) # 计算最小值

x2<-max(a,na.rm=TRUE) # 计算最大值

ave<-mean(a,na.rm=TRUE) # 计算均值

med<-median(a,na.rm=TRUE) # 计算中位数

# 连续分布的众数定义为其分布的密度函数峰值对应的取值

ds=density(a,na.rm=TRUE)

mode <- ds$x[which.max(ds$y)]

quan<-quantile(a,na.rm=TRUE) # 计算四分位数 (0%,25%,50%,75%,100%)

dnorm_png<-png(" ") # 定义图片文档

hist(a, freq = F, breaks = 100) # 绘制频率分布直方图

curve(dnorm(x,mean(a,na.rm=TRUE), sd(a,na.rm=TRUE)), xlim=c(x1,x2),

col="blue", lwd=3, add=TRUE) # 绘制概率分布曲线

abline(v=ave,lty=3,lwd=3,col="red") # 增加均值线

abline(v=med,lty=3,lwd=3,col="purple") # 增加中位数线

abline(v=mode,lty=3,lwd=3,col="green") # 增加众数线

abline(v=quan,lty=3,lwd=3,col="blue") # 增加四分位数线

dev.off() # 保存图片文档

 

 

 

分类数据分析:

 

Kappa一致性的测量:(是测量不是检验,需要加载vcd库)

kappa计算结果为-1~1,但通常kappa是落在0~1 间,可分为五组来表示不同级别的一致性:0.0~0.20极低的一致性(slight)0.21~0.40一般的一致性(fair)0.41~0.60中等的一致性(moderate)0.61~0.80高度的一致性(substantial)0.81~1几乎完全一致(almost perfect)

Kappa测量要求矩阵对称,及只能为2*23*3等形式。

 

x<-cbind(c(12,17),c(2,129))

library(vcd)

Kappa(x)

检验结果反映了样本之间的一致性。

 

 

卡方检验:chisq.test(x,correct=F)

卡方检验(Chi-Squared Test或 χ2 Test)是检验两个或多个分类变量相关性的常用方法之一。

卡方独立性检验:

对于两个分类变量,(卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0)

原假设   这两个变量是彼此独立的,即不存在相关关系。

备则假设 两者是相关的,它们是相互依赖而非独立的。

如:

1)患肺癌与吸烟;

2)某基因突变位点与某种疾病患病风险;

3)某基因突变位点与某疾病的某种治疗药物的敏感性。

       患癌 不患癌

吸烟   4000 3e+06

不吸烟 1000 7e+06

#参数为x,和correctx表示矩阵对象。Correct等于T时,为默认值,表

示计算卡方统计量时应有连续性校正。F时为正常计算卡方统计量。

> chisq.test(data,correct=F)

> X-squared = 5946.6, df = 1, p-value < 2.2e-16

> chisq.test(data,correct=T)

Pearson's Chi-squared test with Yates' continuity correction

data: data

X-squared = 5944.2, df = 1, p-value < 2.2e-16

 

卡方等比例检验:

计算方法与卡方独立性检验完全相同。

数据对象是从多个独立总体中抽取的,原假设为某个变量在所有总体中的分布是一样的。

如:

1)不同种族人群中的患肺癌比例;

2)不同种族人群中的某基因突变位点频率

#等位基因频率

x<-cbind(c(115,103),c(121,180))  #cbind是把数据绑到一行,rbind是把数据绑到一列

chisq.test(x,correct=F)

 

 

卡方拟合优先度检验:

检验假设  一个分类变量的总体分布服从某种特定的分布。(例如分布均匀)

备用假设  这个变量服从其他分布。(例如分布不均匀)

x<-c(210, 312, 170, 85, 223)

p<-c(0.2, 0.2, 0.2, 0.2, 0.2)  #分布均匀为0.2+0.2+0.2+0.2+0.2

chisq.test(x, p = p)

#结果回显

Chi-squared test for given probabilities

data: x

X-squared = 136.49, df = 4, p-value < 2.2e-16    #p<0.05推翻原假设

 

 

 

t检验

单样本t检验:

检验一个样本平均数与一个已知的总体平均数的差异是否显著。

两个独立样本的t检验:

检验两个样本平均数与其各自所代表的总体的差异是否显著。

H0:两者之间差异不显著

H1: 两者之间差异显著

 

注意事项:

1. 来自正态分布总体

2. 随机样本

3. 均数比较时,要求俩总体方差相等,即具有方差齐性(若样本小且样本符合正态分布,默认具有方差齐性)

 

 

Pearson相关分析:

pearson是一个介于-11之间的值,当两个变量的线性关系增强时,相关系数趋于1-1;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0

如果一个变量增大,另一个变量却减小,表明它们之间是负相关的,相关系数小于0

如果相关系数等于0,表明它们之间不存在线性相关关系。

H0:  变量不相关

H1:  变量相关

#利用cor(x,y,method = c("pearson", "kendall", "spearman"))来计算

#pearson相关系数用于连续数据

#spearman相关系数用于分类数据

#kendall秩相关系数

#pearson相关系数计算及显著性检验

> cor.test(x,y, method="pearson")

Pearson's product-moment correlation

data: x and y

t = 39.818, df = 18, p-value < 2.2e-16

alternative hypothesis: true correlation is not equal to

0

95 percent confidence interval:

 0.9855004 0.9978210

sample estimates:

 cor

0.9943714

 

X<-cor.test(x,y, method="pearson")

p=NULL

r=NULL

#基因表达谱遍历

for(i in 1:nrow(data))

{

if(rownames(data)[i] != sam.row.name)

{

b <- unlist(data[i,3:67])

#pearson 相关系数计算及显著性检验

x <- cor.test(a,b, method="pearson")

p <- c(p,x$p.value)

r <- c(r,x$estimate)

}

}

#gene_names<-data[,2]

#删除一开始所选基因名称

#gene_names2 <- gene_names[-match(gene_name_a,gene_names)]

#names(p)<- gene_names2

#names(r)<- gene_names2

#设定阈值进行筛选

p_value = 0.05

r_cutoff = 0.5

#筛选

p2 <- p[p

r2 <- r[r>r_cutoff]

#查看筛选结果

length(p2)

#[1] 17741

length(r2)

#[1] 2383

#设定阈值

p_value = 0.01

r_cutoff = 0.6

#筛选

p2 <- p[p

r2 <- r[r>r_cutoff]

#查看筛选结果

length(p2)

#[1] 11191

length(r2)

#[1] 810

#计算 p2 r2相关基因名称的交集=》与数据行a 对应基因表达水平具有较高相关性的基因

genes <- intersect(names(p2),names(r2))

length(genes)

 

 

线性回归分析和方差分析

线性回归分析:

用称为线性回归方程的最小平方函数对一个或多个自变量因变量之间关系进行建模的一种回归分析

线性回归的假设条件:

(1)因变量必须是连续的定距或者定比数据

(2)连续变量近似正态分布,且没有太多离群点

(3)符合正态分布shapiro.test()进行正态分布检验)

Shapiro.test()

H0:符合正态分布

H1:不符合正态分布

 

两个变量的相关程度,用”Multiple R-squared:”的大小衡量

x,y为两组数据:

#做有截距的线性回归分析

lm.sol <- lm(y~1+x)

png(file = "plot_y_3x+4_lr-2.png")

par(mfrow=c(2,2))

plot(lm.sol)

dev.off()

 

 

 

 

 

方差分析:

单因素方差分析只有两个水平时,与t检验等价。

H0:两组均值相同

H1:两组均值不同

 

方差齐性检验:

ge<-data.frame(x<-t(data[sam.row.name,3:67]), A<-

                 factor(Columns(gds4794)$disease.state))

bartlett.test(x~A,data=ge)  H0:方差齐性  H1:方差不齐

多元线性回归

适合自变量不止一个时使用

要考虑多重共线性,VIF,自变量自身相互影响作用大小

lm0<-lm(rating~.,data=data[,4:16])

summary(lm0)

以【向后】逐步回归法计算最终多元回归模型(记录逐步回归的结果),并查看

分析结果(summary,并根据分析结果,写出相应的多元线性方程;

lm.step<-step(lm0,direction="backward")

summary(lm.step)

 

library(car)

vif(lm.step)

理想中的线性模型各个自变量应该是线性无关的,若自变量间存在共线性,

则会降低回归系数的准确性。

 VIF 大于 4则存在共线性。理想中的线性模型 VIF=1,表

完全不存在共线性。

 

Logistic 回归分析

适合因变量为二分类变量的(是或否,10

通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。

 

聚类分析 主成分分析

 

非参数统计

不考虑总体分布类型是否已知,

不比较总体参数,只比较总体分布的位置是否相同的统计方法。

 

医学和流行病学统计

风险比(risk ratioRR),亦称为相对风险(relative riskRR),是和没有在这

种暴露因素下的人群相比,在这种暴露因素下的人群换上某种疾病的可能性的估计

 

 

 

几率比OR

 

 

风险比 RR 受到对照组样本量的影响很大

几率比 OR 不受对照组样本量的影响

 

样本量的计算:

调查高血压组中 IV 基因型的比例(±5%区间),α=0.05,π=0.9

n = (1.96/0.05)2 × (0.9×0.1) = 138.2976139

调查高血压组中 IV 基因型的比例(±2.5%区间),α=0.05,π=0.9

n = (1.96/0.025)2 × (0.9×0.1) = 553.1904554

=》要求比例越接近真实情况,样本量需求越大

调查对照组中 IV 基因型的比例(±2.5%区间),α=0.05,π=0.5

n = (1.96/0.025)2 × (0.5×0.5) = 1536.641537

=》不同基因型比例分布越均匀,样本量需求越大

n是要求的样本量;

π是假设的总体比例

你可能感兴趣的:(数据处理之卡方检验)