m6A甲基化是目前研究的一个热点,前面给大家介绍过☞m6A甲基化数据分析流程。我们知道m6A甲基化需要三类不同的基因来参与。 腺嘌呤(A)可以被编码器(Writer)METTL3、METTL14和WTAP及其他组分组成的甲基转移酶复合体甲基化,甲基化的腺嘌呤可以被读码器(Reader, 目前发现m6A读码器主要有五个,定位于细胞核内的YTHDC1以及定位在细胞质中的YTHDF1、YTHDF2、YTHDF3、YTHDC2)所识别,同时m6A可以被擦除器(Eraser )FTO和ALKBH5这两个去甲基化酶催化去甲基化。
m6A甲基化也参与到各种肿瘤的发生和发展的过程中,因此在肿瘤中我们一般也可以看到与m6A甲基化相关的基因表达失调。今天我们就来展示一下与m6A甲基化相关的基因在肿瘤样本和癌旁正常对照组织中的表达情况,并显示t检验的p值是否显著。
我们先来看下得到的结果是怎么样的。下图展示的是16个与m6A甲基化相关的基因,在胆管癌(TCGA-CHOL)的肿瘤样本和癌旁正常对照中的表达情况。
这里p值采用t检验计算,星号与p值之间的对应关系如下。具体转换的方法前面也讲到过☞【R语言】P值转换成***
ns(not significant): p > 0.05,
*: p <= 0.05,
**: p <= 0.01,
***: p <= 0.001,
****: p <= 0.0001
下面我们来给大家捋一捋具体的思路
1.从TCGA数据库下载特定肿瘤的RNAseq数据,合并得到表达矩阵
关于这一部分前面有详细的视频讲解
☞如何合并TCGA表达谱数据
2.搜集m6A甲基化相关的基因,根据需要做基因的ID转换
这里我已经帮大家从一些相关的研究中搜集了m6A甲基化相关的16个基因,当然大家也可以根据自己的需要增,删相关基因。我们讲的主要是方法,代码都是一样的跑,多几个基因少几个基因都无所谓。甚至你还可以换成其他的任何基因列表都是可以的。
"METTL3","METTL14","METTL16","WTAP","VIRMA","RBM15","ZC3H13","YTHDF1","YTHDF2","YTHDF3","YTHDC1","YTHDC2","HNRNPA2B1","HNRNPC","FTO","ALKBH5"
这里需要注意的是TCGA中gene的ID一般是ensembl gene ID,而我们从paper中搜集的gene一般是gene名字,所以这里就需要做一个gene ID转换。这个我在前面也讲过
☞【R语言】基因ID转换
3.提取m6A基因相关的表达矩阵
这个其实就是R里面最常见的数据框取下标操作了。这里所有分析都是基于R来做的,所以了解一些R的基础知识还是很有必要的。
具体可以参考
☞R语言入门-工欲善其事必先利其器
m6A基因相关的表达矩阵如下
4.添加样本的类型信息,如肿瘤,癌旁正常对照
前面也用视频给大家详细介绍过如何从TCGA数据下载临床信息
☞如何从TCGA数据库下载RNAseq数据以及临床信息(一)
5.绘制boxplot并做统计检验,将p值显示在boxplot图上
这里我们直接用ggboxplot绘图,并做统计检验,显示p值
完整代码可以参考
☞m6a甲基化相关基因boxplot并显示p值
对TCGA数据库还不了解的小伙伴,我们也有相关的视频课程详细介绍TCGA数据库挖掘
☞TCGA数据库介绍及数据挖掘
参考资料:
1.m6A甲基化数据分析流程
2.【R语言】P值转换成***
3.如何合并TCGA表达谱数据
4.【R语言】基因ID转换
5.加载R包org.Hs.eg.db出错,避坑指南!
6.R语言入门-工欲善其事必先利其器
7.如何从TCGA数据库下载RNAseq数据以及临床信息(一)