tcga数据下载_单基因生信分析流程(1)一文解决TCGA数据下载整理问题

文章发布于简书博客:柳叶刀与小鼠标(单基因生信分析流程(1)一文解决TCGA数据下载整理问题)

原因

在平常科研工作中,经常有师兄师姐师弟师妹问我:我现在有一个单基因,我该怎么开展生信研究?出现这个问题的原因是:(1)目前生信研究火热也逐渐受到认可(2)许多医学生在开展实验研究的同时,如果结合生信,则自己的结论和工作量更加吸引到编辑和手审稿人(3)现有的geo、TCGA或者其他免费公开数据库确实是很多研究者的第一选择。

思路

(1)下载整理临床数据、TCGA表达量
(2)单基因的差异分析或者相关分析
(3)单基因的生存分析与临床参数相关分析
(4)单基因的下游通路分析包括GO、KEGG或者通过GSEA

第一节(TCGA生存数据下载)

本节主要下载透明细胞癌KIRC的生存数据
  • 加载R包
library
  • 下载生存数据
<- 

我们可以看到从上到下共计有537个样本,而且该临床数据有37列。当然我们这里主要关注生存相关的信息比如生存时间和生存状态。

  • 整理TCGA肾透明细胞癌的生存时间和生存状态
rm

最终得到的生存信息,其中包含样本ID,性别,OS(生存状态)、OS(生存时间)、种族、年龄、位置、分级、分期、TNM等信息


image.png

第二节 TCGA表达量下载

  • 我这里以肾透明细胞KIRC为例,下载其表达量数据。
exp 

得到的count_matrix矩阵即为我们所需要的KIRC表达量矩阵。
其中每一列为一个样本,每一行为一个基因,我们看到共计56602个基因(包括mRNA和lncRNA等),611个样本(包括肿瘤和癌旁样本)

第三节:TCGA数据库的TPM计算

(

第四节:表达矩阵中提取mRNA表达矩阵

# =======================================================

第五节:删除癌旁样本和二次测序的样本

#=======================================================

第六节:保存mRNA表达矩阵

[,which

你可能感兴趣的:(tcga数据下载,单基因gsea)