玩转TCGA临床信息

相信很多做科研的同学刚步入科学殿堂的时候,都是从学习和模仿他人的研究开始的,小编当年也是这样的。俗话说他山之石可以攻玉,这也是一种不错的学习方法。但是,有时候却很难重现原作者的结果,甚至有时候连作者的实验数据如何获取,样本如何分类都很难搞清楚。

前些日子有位同学follow一篇宫颈癌的文章,

玩转TCGA临床信息_第1张图片

对作者是如何从307个early-stage cervical cancer (CESC)病人中根据临床信息挑选出145个病人的过程有些疑惑。下面是原作者筛选样本的标准。

玩转TCGA临床信息_第2张图片

今天小编就带大家来重现这个过程。首先我们要从TCGA中下载CESC的临床信息,在TCGA中搜索CESC,选择TCGA-CESC。

玩转TCGA临床信息_第3张图片

选择miRNA样本,点击307这个超链接。

玩转TCGA临床信息_第4张图片

任意选择一个样本,点击进入。

玩转TCGA临床信息_第5张图片

选择clinical,点击10这个超链接。

玩转TCGA临床信息_第6张图片

点击nationwidechildrens.org_clinical_patient_cesc.txt 进入

玩转TCGA临床信息_第7张图片

点击Download下载,里面就包含所有样本的临床信息

玩转TCGA临床信息_第8张图片

解压到当前文件夹

玩转TCGA临床信息_第9张图片

用excel打开nationwidechildrens.org_clinical_patient_cesc.txt

玩转TCGA临床信息_第10张图片

删除第一行和第三行

找到clinical_stage这一列进行筛选,根据作者原文方法部分的描述,只保留clinical stage为 stage IA2到IIA的样本。筛选完得到182个样本。

玩转TCGA临床信息_第11张图片
玩转TCGA临床信息_第12张图片

接下来找到pathologic_N,进行筛选。这里需要简单介绍一下TNM分析。N代表淋巴结。恶性肿瘤病人存在或不存在淋巴结转移,可能是单发转移也可能是多发转移。N0代表没有淋巴结转移,N1、N2、N3代表淋巴结转移的程度,不同肿瘤代表的程度不一样,数字越大代表淋巴结转移越多。经过stage筛选之后,这里的N只有N0和N1。那么N1就代表是淋巴结转移的样本,也就是原文中的lymph node metastasis(LNM+)。更多临床信息解读可以参考肿瘤TNM分期。

玩转TCGA临床信息_第13张图片

这就和原文中的表1中的数字相同了。

玩转TCGA临床信息_第14张图片

接着我们检查一下相应的Tumor Grade样本数是否正确。由于满足上面筛选条件的样本的Tumor Grade只有G2,G3和NA这三种了。我们把G2的数目作为G1+G2的数目,正好是17个,跟表1中的样本数吻合。

玩转TCGA临床信息_第15张图片
玩转TCGA临床信息_第16张图片

我们把G3的数目作为G3+G4的数目。正好14个,跟表1中的样本数吻合。

玩转TCGA临床信息_第17张图片
玩转TCGA临床信息_第18张图片

而NA的个数为1,也与表1中的样本数吻合。

玩转TCGA临床信息_第19张图片
玩转TCGA临床信息_第20张图片

挑选LNM-样本,感兴趣的同学可以练练手。

玩转TCGA临床信息​

你可能感兴趣的:(玩转TCGA临床信息)