TCGA样本ID号的含义

经常有人会问小编,TCGA下载的数据中,样本的ID号究竟代表什么意思。从样本ID号上能看出样本类型吗?首先小编先给大家一个肯定的答案。从TCGA的样本ID号上是可以区分样本类型的。

我们以TCGA-CHOL这套数据的sample sheet为例,sample sheet的下载方法和详细讲解,参考下面这个视频。☞新版TCGA数据库RNAseq数据下载

得到的sample sheet内容如下,我们用Excel打开,然后直接查看最后几列。从Sample ID和Sample Type的对应关系不难发现,后缀为-01A的是Primary Tumor样本,后缀为-11A的是Solid Tissue Normal样本。


而事实上也是这样的,从TCGA官方文档

https://gdc.cancer.gov/resources-tcga-users/tcga-code-tables/sample-type-codes

我们可以看到后缀中数字与样本类型的对应关系。


那么-01A和-11A,这里的字母A又是什么含义呢?


从TCGA的另外一个官方文档上我们可以看到具体的解释。

https://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/

从这个示意图上可以看到,有时候我们可以从一个病例身上取多个样本,不论是肿瘤样本,还是癌旁正常对照,然后存放在不同的管子里面。这里的A,B,C就表示样本的顺序。官方文档的解释如下。


讲到这里,我相信大家对TCGA中的样本ID有了更深入的理解。如果对TCGA还不太了解的小伙伴,可以参考生信交流平台往期的内容。

前面小编也给大家详细介绍过TCGA这数据库,从RNAseq数据,miRNA-seq数据的下载合并,到临床数据的下载,再到差异表达分析。

☞新版TCGA数据库RNAseq数据下载
☞新版TCGA数据库miRNA数据下载
☞R代码合并新版TCGA数据库RNAseq表达谱数据
☞零代码合并新版TCGA数据库RNAseq表达谱数据

☞提取TCGA中mRNA或lncRNA表达矩阵

☞R代码TCGA差异表达分析

☞零代码TCGA差异表达分析

从体细胞突变数据的下载到合并成maf文件,然后绘制瀑布图。

☞ 如何从TCGA数据库下载体细胞突变数据(somatic mutation)

☞【视频讲解】下载TCGA数据库中突变数据

☞ R代码合并TCGA体细胞突变数据

☞ maftools包分析突变数据,绘制瀑布图

☞ 【R实战】使用maftools复现SCI文章中的体细胞突变瀑布图

从甲基化数据的下载到甲基化水平矩阵的合并

☞ 如何从TCGA数据库下载DNA甲基化数据

☞ R代码合并TCGA数据库中DNA甲基化数据

你可能感兴趣的:(TCGA样本ID号的含义)